Teks PDF Imbasan Tidak Boleh Dipilih - Cara Memperbaikinya dengan OCR

Mengapa teks dalam PDF imbasan tidak boleh dipilih?
Apabila dokumen diimbas secara fizikal dan disimpan sebagai PDF, pengimbas menangkap imej rata halaman - seperti mengambil foto. Fail yang terhasil tidak mengandungi aksara teks sebenar, hanya piksel yang disusun agar kelihatan seperti huruf. Itulah sebabnya mengklik di mana-mana dalam dokumen tidak memilih apa pun: tiada lapisan teks untuk kursor tangkap.
Ini adalah salah satu rungutan PDF yang paling biasa. Dokumen kelihatan boleh dibaca dengan sempurna di skrin, tetapi pada dasarnya ialah foto yang dibenamkan dalam pembungkus PDF. Anda tidak boleh mencarinya, menyalinnya, atau membiarkan pembaca skrin menghuraikannya.
Apakah OCR dan bagaimana ia memperbaiki masalah ini?
OCR (Pengecaman Aksara Optik) ialah teknologi yang menganalisis imej teks dan menukarnya kepada aksara sebenar yang boleh dibaca mesin. Perisian melihat bentuk huruf, membandingkannya dengan corak yang diketahui, dan menghasilkan lapisan teks yang dibenamkan semula ke dalam PDF.
Selepas pemprosesan OCR, anda mendapat PDF yang boleh dicari dan dipilih - secara visual sama dengan asal, tetapi kini kursor anda boleh menandai perkataan, Ctrl+F boleh mencari frasa, dan salin-tampal berfungsi seperti biasa. Pembaca skrin dan alat kebolehcapaian juga boleh membacanya.
Cara menggunakan OCR pada PDF imbasan
Terdapat beberapa cara untuk menambah OCR pada PDF imbasan, daripada alat penyemak imbas percuma hingga perisian desktop:
- Tukar ke Word, kemudian simpan sebagai PDF: Penukar PDF ke Word kami mengekstrak kandungan visual dan menukarnya kepada dokumen Word yang boleh diedit. Di Word, teks boleh dipilih sepenuhnya. Anda kemudian boleh mengeksport semula ke PDF dengan lapisan teks yang betul.
- Adobe Acrobat (berbayar): Alat standard industri. Buka PDF, pergi ke Alat → Imbas & OCR → Kenali Teks, dan Acrobat menambah lapisan teks secara langsung. Mahal tetapi sangat tepat.
- Google Drive (percuma): Muat naik PDF imbasan ke Google Drive, klik kanan, dan pilih "Buka dengan Google Docs." Google menjalankan OCR secara automatik dan membuka teks dalam dokumen Docs. Berfungsi dengan baik untuk imbasan yang jelas.
- Tesseract OCR (percuma, sumber terbuka): Enjin OCR baris arahan yang berkuasa yang digunakan oleh banyak aplikasi. Terbaik untuk pembangun atau pengguna teknikal yang mahukan penyelesaian self-hosted percuma.
- Adobe Acrobat dalam talian (percuma terhad): Adobe menawarkan pemprosesan OCR percuma terhad melalui alat dalam talian mereka untuk pengguna tanpa langganan.
Tip untuk ketepatan OCR yang lebih baik
Kualiti OCR bergantung banyak kepada kualiti imbasan asal. Ikuti tip ini untuk memaksimumkan ketepatan:
- Imbas pada 300 DPI atau lebih tinggi: Imbasan resolusi rendah menghasilkan aksara kabur yang salah dibaca oleh enjin OCR. 300 DPI adalah minimum; 600 DPI adalah ideal untuk teks kecil atau dokumen terperinci.
- Gunakan hitam-putih untuk dokumen teks: Imbasan berwarna menambah saiz fail tanpa meningkatkan ketepatan OCR untuk teks biasa. Hitam-putih atau skala kelabu sudah mencukupi untuk kebanyakan dokumen.
- Pastikan halaman lurus: Halaman yang condong atau senget mengelirukan perisian OCR. Kebanyakan alat moden boleh mendeteksi secara automatik, tetapi bermula dengan lurus membantu.
- Elakkan kesan kopi dan kotoran: Tanda fizikal pada dokumen terbaca sebagai aksara. Bersihkan dokumen asal jika boleh.
- Periksa hasilnya: OCR tidak 100% tepat. Sentiasa semak hasilnya, terutamanya untuk nombor, tanda baca, dan bahagian tulisan tangan.
Selepas OCR: kurangkan saiz fail jika diperlukan
Pemprosesan OCR kadang-kadang boleh meningkatkan saiz fail PDF kerana ia menambah lapisan teks tersembunyi di atas lapisan imej yang sedia ada. Jika fail yang terhasil terlalu besar, gunakan pemampat PDF kami untuk mengurangkan saiz tanpa kehilangan kualiti visual.
Bagaimana jika OCR tidak mengenali teks dengan betul?
Ketepatan OCR bergantung kepada kualiti imbasan asal. Keputusan yang buruk biasa berlaku dengan: fon yang sangat kecil (di bawah 8pt), teks tulisan tangan, fon hiasan atau luar biasa, dakwat pudar, atau imbasan berkualiti rendah di bawah 200 DPI. Dalam kes ini, menaip semula secara manual mungkin perlu - atau mengimbas semula dokumen asal dengan kualiti lebih tinggi sebelum menjalankan OCR semula.
Pertanyaan yang Sering Diajukan
Mengapa teks dalam PDF saya tidak boleh dipilih?▾
Adakah terdapat cara percuma untuk menjadikan teks PDF imbasan boleh dipilih?▾
Adakah OCR mengubah rupa PDF?▾
Seberapa tepat OCR pada dokumen imbasan?▾
Bolehkah saya menjadikan teks tulisan tangan dalam PDF boleh dipilih dengan OCR?▾
Artikel Terkait
Fon Terbenam Tiada dalam PDF? Betulkan Paparan Teks yang Salah dalam 7 Langkah
Jika teks PDF anda kelihatan berbeza pada peranti lain, kehilangan fon terbenam biasanya menjadi sebabnya. Berikut ialah cara untuk mendiagnosis dan membetulkannya dengan cepat. ✅
6 menit membacaPDF Menjadi Kabur Selepas Pemampatan? 7 Cara untuk Menjaga Kualiti (2026)
Memampatkan PDF dan kini teks atau imej kelihatan kabur? Ketahui dengan tepat sebab kualiti menurun dan cara mengurangkan saiz fail tanpa memusnahkan kebolehbacaan. ✅
6 menit membacaTidak boleh Membuka PDF pada iPhone atau Android? 6 Pembetulan Segera (2026)
Bergelut untuk membuka fail PDF pada iPhone atau Android anda? Ketahui sebab anda mungkin melihat skrin kosong dan cara melihat dokumen anda tanpa memasang apl berat. ✅
5 menit membaca