掃描 PDF 文字無法選取 - 如何用 OCR 修復
Martin Pavlič更新於 2026年4月8日6 分鐘閱讀

為什麼掃描的 PDF 中的文字無法選取?
當文件被實體掃描並儲存為 PDF 時,掃描器會擷取頁面的平面影像--就像拍照一樣。產生的檔案不包含實際的文字字元,只有排列成字母形狀的像素。這就是為什麼在文件中點擊任何地方都不會選取任何內容:沒有可供游標抓取的文字層。
這是最常見的 PDF 使用問題之一。文件在螢幕上看起來完全可讀,但本質上是嵌入在 PDF 包裝中的照片。您無法搜尋、複製,螢幕閱讀器也無法解析它。
什麼是 OCR,它如何解決這個問題?
OCR(光學字元辨識)是一種分析文字影像並將其轉換為實際機器可讀字元的技術。軟體查看字母形狀,與已知圖案進行比較,並輸出嵌入回 PDF 的文字層。
經過 OCR 處理後,您將得到一個可搜尋、可選取的 PDF--視覺上與原版完全相同,但現在游標可以標示單詞,Ctrl+F 可以尋找片語,複製貼上也正常運作。螢幕閱讀器和無障礙工具也可以讀取它。
如何對掃描的 PDF 套用 OCR
向掃描的 PDF 新增 OCR 有幾種方法,從免費瀏覽器工具到桌面軟體不等:
- 轉換為 Word 再儲存為 PDF:我們的PDF 轉 Word 轉換器可提取視覺內容並將其轉換為可編輯的 Word 文件。在 Word 中,文字完全可選取。然後您可以重新匯出為具有適當文字層的 PDF。
- Adobe Acrobat(付費):業界標準工具。開啟 PDF,前往工具 → 掃描 & OCR → 辨識文字,Acrobat 會直接新增文字層。價格昂貴但準確度高。
- Google Drive(免費):將掃描的 PDF 上傳至 Google Drive,右鍵點擊它,選擇"以 Google 文件開啟"。Google 會自動執行 OCR 並在 Docs 文件中開啟文字。對於清晰的掃描效果出人意料地好。
- Tesseract OCR(免費,開源):許多應用程式使用的強大命令列 OCR 引擎。最適合需要免費自託管解決方案的開發人員或技術使用者。
- Adobe Acrobat 線上(有限免費):Adobe 透過其線上工具為沒有訂閱的使用者提供有限的免費 OCR 處理。
提高 OCR 準確度的技巧
OCR 品質在很大程度上取決於原始掃描的品質。遵循以下技巧以最大化準確度:
- 以 300 DPI 或更高解析度掃描:低解析度掃描會產生模糊字元,OCR 引擎會誤讀。300 DPI 是最低要求;對於小字體或詳細文件,600 DPI 是理想選擇。
- 文字文件使用黑白掃描:彩色掃描不會提高純文字的 OCR 準確度,卻會增加檔案大小。對於大多數文件,黑白或灰階已經足夠。
- 保持頁面平直:傾斜或歪斜的頁面會使 OCR 軟體混淆。大多數現代工具可以自動校正傾斜,但從一開始就保持平直會有所幫助。
- 避免咖啡漬和污點:文件上的實體污跡會被誤讀為字元。如有可能,請清潔原件。
- 檢查輸出結果:OCR 不是 100% 準確的。請務必校對結果,尤其是數字、標點符號和手寫部分。
OCR 後:如有需要縮減檔案大小
OCR 處理有時會增加 PDF 檔案大小,因為它在現有影像層之上新增了隱藏的文字層。如果產生的檔案太大,請使用我們的PDF 壓縮工具在不損失視覺品質的情況下縮減檔案大小。
如果 OCR 無法正確辨識文字怎麼辦?
OCR 準確度取決於原始掃描品質。以下情況常見效果差:非常小的字體(8pt 以下)、手寫文字、裝飾性或不常見字體、褪色墨水,或低於 200 DPI 的低品質掃描。在這些情況下,可能需要手動重新輸入,或在再次執行 OCR 之前以更高品質重新掃描原始文件。
常見問題
為什麼 PDF 中的文字無法選取?▾
您的 PDF 是掃描影像,而不是帶有嵌入文字層的文件。當紙質文件被掃描並儲存為 PDF 時,結果本質上是頁面的照片--像字母形狀的像素,但不是實際文字。要使其可選取,您需要執行 OCR(光學字元辨識)來新增文字層。
有免費方法使掃描的 PDF 文字可選取嗎?▾
有 - Google Drive 提供免費 OCR:上傳 PDF,右鍵點擊並以 Google 文件開啟。Google 會自動辨識文字。此外,我們的 PDF 轉 Word 轉換器可將內容提取為可編輯文件。對於完全免費的桌面解決方案,Tesseract OCR 是開源且非常強大的工具。
OCR 會改變 PDF 的外觀嗎?▾
不會 - OCR 在現有影像後面新增了一個不可見的文字層。PDF 的視覺外觀保持完全相同。您只是獲得了選取、複製和搜尋文字的能力。唯一的例外是轉換為 Word 並重新匯出,此時可能會發生輕微的格式變更。
OCR 對掃描文件的準確度如何?▾
現代 OCR 對300 DPI 或更高解析度的清晰掃描文件準確率為 95-99%。對於低解析度掃描、手寫、不常見字體或實體損壞的頁面,準確率會大幅下降。在用於重要文件之前,請務必校對輸出結果。
OCR 能使手寫 PDF 文字可選取嗎?▾
標準 OCR 對手寫的辨識效果較差--它是為印刷、打字文字設計的。專門的手寫辨識工具雖然存在,但準確度遠不及印刷文字 OCR。如果文件中混有印刷和手寫內容,OCR 會正確辨識印刷部分,但手寫部分很可能會辨識錯誤。