OpenPDFTools

スキャンしたPDFのテキストが選択できない - OCRで修正する方法

Martin Pavlič更新日: 2026年4月8日6分で読めます
共有
スキャンしたPDFのテキストが選択できない - OCRで修正する方法

なぜスキャンしたPDFでテキストを選択できないのですか?

文書が物理的にスキャンされてPDFとして保存されると、スキャナーはページの平面画像を撮影します - まるで写真を撮るようなものです。作成されたファイルには実際のテキスト文字は含まれておらず、文字のように見える画素の配列のみです。そのため、文書内のどこをクリックしても何も選択されません。カーソルが掴めるテキスト層がないからです。

これはPDFに関する最も一般的な不満の一つです。文書は画面上では完全に読めるように見えますが、本質的にはPDFラッパーに埋め込まれた写真です。検索したり、コピーしたり、スクリーンリーダーで解析したりすることができません。

OCRとは何か、どのように修正するのか?

OCR(光学式文字認識)はテキストの画像を分析し、機械で読み取れる実際の文字に変換する技術です。ソフトウェアは文字の形を調べ、既知のパターンと比較し、PDFに埋め込まれたテキスト層として出力します。

OCR処理後は検索・選択可能なPDFが得られます - 見た目は元のものと同一ですが、カーソルで単語をハイライトしたり、Ctrl+Fでフレーズを検索したり、コピー&ペーストが正常に動作します。スクリーンリーダーやアクセシビリティツールでも読み取ることができます。

スキャンしたPDFにOCRを適用する方法

スキャンしたPDFにOCRを追加する方法はいくつかあり、無料のブラウザツールからデスクトップソフトウェアまで様々です:

  • Wordに変換してからPDFとして保存:当サイトのPDF to Wordコンバーターは視覚コンテンツを抽出し、編集可能なWord文書に変換します。Wordで開くとテキストは完全に選択可能になります。その後、適切なテキスト層を持つPDFとして再エクスポートできます。
  • Adobe Acrobat(有料):業界標準のツールです。PDFを開き、ツール → スキャンとOCR → テキストを認識 と進むと、Acrobatがテキスト層を直接追加します。高価ですが精度が高いです。
  • Google Drive(無料):スキャンしたPDFをGoogle Driveにアップロードし、右クリックして「Google ドキュメントで開く」を選択します。Googleが自動的にOCRを実行し、テキストをDocsドキュメントで開きます。きれいなスキャンには驚くほどよく機能します。
  • Tesseract OCR(無料、オープンソース):多くのアプリで使用されている強力なコマンドラインOCRエンジンです。無料のセルフホスティングソリューションを求める開発者や技術ユーザーに最適です。
  • Adobe Acrobatオンライン(限定無料):Adobeはサブスクリプションなしのユーザー向けにオンラインツールを通じて限定的な無料OCR処理を提供しています。

OCR精度を高めるためのヒント

OCRの品質は元のスキャンの品質に大きく依存します。精度を最大化するために以下のヒントに従ってください:

  • 300 DPI以上でスキャンする:低解像度のスキャンはOCRエンジンが誤読するぼやけた文字を生成します。300 DPIが最低ラインで、小さなテキストや詳細な文書には600 DPIが理想的です。
  • テキスト文書にはモノクロを使用する:カラースキャンは平文テキストのOCR精度を改善せずにファイルサイズを増加させます。ほとんどの文書にはモノクロまたはグレースケールで十分です。
  • ページをまっすぐに保つ:傾いたページはOCRソフトウェアを混乱させます。最新のツールのほとんどは自動傾き補正ができますが、最初からまっすぐにすることが助けになります。
  • コーヒーのしみや汚れを避ける:文書上の物理的な汚れは文字として誤読されます。可能であれば元の文書をきれいにしてください。
  • 出力を確認する:OCRは100%正確ではありません。特に数字、句読点、手書きセクションについては必ず校正してください。

OCR後:必要に応じてファイルサイズを縮小する

OCR処理では、既存の画像層の上に隠れたテキスト層を追加するため、PDFファイルサイズが増加する場合があります。生成されたファイルが大きすぎる場合は、当サイトのPDF圧縮ツールを使用して視覚品質を失わずにサイズを縮小してください。

OCRがテキストを正しく認識しない場合は?

OCRの精度は元のスキャン品質に依存します。精度が低くなりやすいケース:非常に小さなフォント(8pt以下)、手書きテキスト、装飾的または珍しいフォント、薄れたインク、または200 DPI以下の低品質スキャン。これらの場合、手動での再入力が必要になるか、OCRを再実行する前に元の文書をより高い品質で再スキャンする必要があるかもしれません。

よくある質問

なぜPDFのテキストが選択できないのですか?
PDFがスキャンされた画像であり、埋め込みテキスト層を持つ文書ではないためです。紙の文書がスキャンされてPDFとして保存されると、結果はページの写真のようなものです - 文字のように見える画素ですが、実際のテキストではありません。選択可能にするには、テキスト層を追加するためにOCR(光学式文字認識)を実行する必要があります。
スキャンしたPDFのテキストを無料で選択可能にする方法はありますか?
はい - Google Driveは無料のOCRを提供しています:PDFをアップロードし、右クリックしてGoogle ドキュメントで開きます。Googleが自動的にテキストを認識します。また、当サイトのPDF to Wordコンバーターでコンテンツを編集可能な文書に抽出することもできます。完全に無料のデスクトップソリューションとして、Tesseract OCRはオープンソースで非常に強力です。
OCRはPDFの見た目を変えますか?
いいえ - OCRは既存の画像の後ろに見えないテキスト層を追加します。PDFの視覚的な外観はまったく同じです。テキストを選択、コピー、検索する機能が追加されるだけです。唯一の例外は、Wordに変換して再エクスポートする場合で、わずかな書式変更が発生する可能性があります。
スキャン文書でのOCRの精度はどの程度ですか?
最新のOCRは、300 DPI以上のきれいにスキャンされた文書で95〜99%の精度を持ちます。低解像度スキャン、手書き、珍しいフォント、物理的に損傷したページでは精度が大幅に低下します。重要な文書に使用する前には必ず出力を校正してください。
OCRで手書きPDFのテキストを選択可能にできますか?
標準的なOCRは手書きに対して精度が低いです - 印刷・タイプされたテキスト向けに設計されています。特化した手書き認識ツールも存在しますが、印刷テキストOCRよりもはるかに精度が低いです。文書に印刷と手書きが混在している場合、OCRは印刷部分を正しく認識しますが、手書き部分は誤読する可能性が高いです。

関連記事