OpenPDFTools

Teks PDF Imbasan Tidak Boleh Dipilih - Cara Memperbaikinya dengan OCR

Martin PavličDiperbarui 8 April 20266 menit membaca
Bagikan
Teks PDF Imbasan Tidak Boleh Dipilih - Cara Memperbaikinya dengan OCR

Mengapa teks dalam PDF imbasan tidak boleh dipilih?

Apabila dokumen diimbas secara fizikal dan disimpan sebagai PDF, pengimbas menangkap imej rata halaman - seperti mengambil foto. Fail yang terhasil tidak mengandungi aksara teks sebenar, hanya piksel yang disusun agar kelihatan seperti huruf. Itulah sebabnya mengklik di mana-mana dalam dokumen tidak memilih apa pun: tiada lapisan teks untuk kursor tangkap.

Ini adalah salah satu rungutan PDF yang paling biasa. Dokumen kelihatan boleh dibaca dengan sempurna di skrin, tetapi pada dasarnya ialah foto yang dibenamkan dalam pembungkus PDF. Anda tidak boleh mencarinya, menyalinnya, atau membiarkan pembaca skrin menghuraikannya.

Apakah OCR dan bagaimana ia memperbaiki masalah ini?

OCR (Pengecaman Aksara Optik) ialah teknologi yang menganalisis imej teks dan menukarnya kepada aksara sebenar yang boleh dibaca mesin. Perisian melihat bentuk huruf, membandingkannya dengan corak yang diketahui, dan menghasilkan lapisan teks yang dibenamkan semula ke dalam PDF.

Selepas pemprosesan OCR, anda mendapat PDF yang boleh dicari dan dipilih - secara visual sama dengan asal, tetapi kini kursor anda boleh menandai perkataan, Ctrl+F boleh mencari frasa, dan salin-tampal berfungsi seperti biasa. Pembaca skrin dan alat kebolehcapaian juga boleh membacanya.

Cara menggunakan OCR pada PDF imbasan

Terdapat beberapa cara untuk menambah OCR pada PDF imbasan, daripada alat penyemak imbas percuma hingga perisian desktop:

  • Tukar ke Word, kemudian simpan sebagai PDF: Penukar PDF ke Word kami mengekstrak kandungan visual dan menukarnya kepada dokumen Word yang boleh diedit. Di Word, teks boleh dipilih sepenuhnya. Anda kemudian boleh mengeksport semula ke PDF dengan lapisan teks yang betul.
  • Adobe Acrobat (berbayar): Alat standard industri. Buka PDF, pergi ke Alat → Imbas & OCR → Kenali Teks, dan Acrobat menambah lapisan teks secara langsung. Mahal tetapi sangat tepat.
  • Google Drive (percuma): Muat naik PDF imbasan ke Google Drive, klik kanan, dan pilih "Buka dengan Google Docs." Google menjalankan OCR secara automatik dan membuka teks dalam dokumen Docs. Berfungsi dengan baik untuk imbasan yang jelas.
  • Tesseract OCR (percuma, sumber terbuka): Enjin OCR baris arahan yang berkuasa yang digunakan oleh banyak aplikasi. Terbaik untuk pembangun atau pengguna teknikal yang mahukan penyelesaian self-hosted percuma.
  • Adobe Acrobat dalam talian (percuma terhad): Adobe menawarkan pemprosesan OCR percuma terhad melalui alat dalam talian mereka untuk pengguna tanpa langganan.

Tip untuk ketepatan OCR yang lebih baik

Kualiti OCR bergantung banyak kepada kualiti imbasan asal. Ikuti tip ini untuk memaksimumkan ketepatan:

  • Imbas pada 300 DPI atau lebih tinggi: Imbasan resolusi rendah menghasilkan aksara kabur yang salah dibaca oleh enjin OCR. 300 DPI adalah minimum; 600 DPI adalah ideal untuk teks kecil atau dokumen terperinci.
  • Gunakan hitam-putih untuk dokumen teks: Imbasan berwarna menambah saiz fail tanpa meningkatkan ketepatan OCR untuk teks biasa. Hitam-putih atau skala kelabu sudah mencukupi untuk kebanyakan dokumen.
  • Pastikan halaman lurus: Halaman yang condong atau senget mengelirukan perisian OCR. Kebanyakan alat moden boleh mendeteksi secara automatik, tetapi bermula dengan lurus membantu.
  • Elakkan kesan kopi dan kotoran: Tanda fizikal pada dokumen terbaca sebagai aksara. Bersihkan dokumen asal jika boleh.
  • Periksa hasilnya: OCR tidak 100% tepat. Sentiasa semak hasilnya, terutamanya untuk nombor, tanda baca, dan bahagian tulisan tangan.

Selepas OCR: kurangkan saiz fail jika diperlukan

Pemprosesan OCR kadang-kadang boleh meningkatkan saiz fail PDF kerana ia menambah lapisan teks tersembunyi di atas lapisan imej yang sedia ada. Jika fail yang terhasil terlalu besar, gunakan pemampat PDF kami untuk mengurangkan saiz tanpa kehilangan kualiti visual.

Bagaimana jika OCR tidak mengenali teks dengan betul?

Ketepatan OCR bergantung kepada kualiti imbasan asal. Keputusan yang buruk biasa berlaku dengan: fon yang sangat kecil (di bawah 8pt), teks tulisan tangan, fon hiasan atau luar biasa, dakwat pudar, atau imbasan berkualiti rendah di bawah 200 DPI. Dalam kes ini, menaip semula secara manual mungkin perlu - atau mengimbas semula dokumen asal dengan kualiti lebih tinggi sebelum menjalankan OCR semula.

Pertanyaan yang Sering Diajukan

Mengapa teks dalam PDF saya tidak boleh dipilih?
PDF anda ialah imej imbasan, bukan dokumen dengan lapisan teks yang dibenamkan. Apabila dokumen kertas diimbas dan disimpan sebagai PDF, hasilnya pada dasarnya ialah foto halaman - piksel berbentuk huruf, tetapi bukan teks sebenar. Untuk membuatnya boleh dipilih, anda perlu menjalankan OCR (Pengecaman Aksara Optik) untuk menambah lapisan teks.
Adakah terdapat cara percuma untuk menjadikan teks PDF imbasan boleh dipilih?
Ya - Google Drive menawarkan OCR percuma: muat naik PDF, klik kanan dan buka dengan Google Docs. Google mengenali teks secara automatik. Sebagai alternatif, penukar PDF ke Word kami mengekstrak kandungan ke dalam dokumen yang boleh diedit. Untuk penyelesaian desktop yang sepenuhnya percuma, Tesseract OCR adalah sumber terbuka dan sangat berkuasa.
Adakah OCR mengubah rupa PDF?
Tidak - OCR menambah lapisan teks yang tidak kelihatan di belakang imej yang sedia ada. Penampilan visual PDF kekal sama sepenuhnya. Anda hanya mendapat keupayaan untuk memilih, menyalin, dan mencari teks. Satu-satunya pengecualian ialah jika anda menukar ke Word dan mengeksport semula, di mana perubahan pemformatan kecil mungkin berlaku.
Seberapa tepat OCR pada dokumen imbasan?
OCR moden mempunyai ketepatan 95-99% pada dokumen imbasan yang bersih pada 300 DPI atau lebih tinggi. Ketepatan menurun dengan ketara untuk imbasan resolusi rendah, tulisan tangan, fon luar biasa, atau halaman dengan kerosakan fizikal. Sentiasa semak hasilnya sebelum menggunakannya untuk dokumen penting.
Bolehkah saya menjadikan teks tulisan tangan dalam PDF boleh dipilih dengan OCR?
OCR standard berfungsi buruk pada tulisan tangan - ia direka untuk teks yang dicetak dan ditaip. Alat pengecaman tulisan tangan khusus wujud tetapi jauh kurang tepat daripada OCR teks cetak. Jika dokumen mempunyai campuran cetak dan tulisan tangan, OCR akan mengenali bahagian cetak dengan betul tetapi kemungkinan salah membaca bahagian tulisan tangan.

Artikel Terkait