OpenPDFTools

Teks PDF yang Dipindai Tidak Bisa Dipilih - Cara Memperbaikinya dengan OCR

Martin PavličDiperbarui 8 April 20266 menit membaca
Bagikan
Teks PDF yang Dipindai Tidak Bisa Dipilih - Cara Memperbaikinya dengan OCR

Mengapa teks dalam PDF yang dipindai tidak bisa dipilih?

Ketika dokumen dipindai secara fisik dan disimpan sebagai PDF, pemindai mengambil gambar datar halaman - seperti mengambil foto. File yang dihasilkan tidak berisi karakter teks yang sebenarnya, hanya piksel yang diatur agar terlihat seperti huruf. Itulah mengapa mengklik di mana pun dalam dokumen tidak memilih apa pun: tidak ada lapisan teks yang bisa ditangkap kursor.

Ini adalah salah satu keluhan PDF yang paling umum. Dokumen terlihat dapat dibaca dengan sempurna di layar, tetapi pada dasarnya adalah foto yang disematkan dalam pembungkus PDF. Anda tidak bisa mencarinya, menyalinnya, atau membiarkan pembaca layar menguraikannya.

Apa itu OCR dan bagaimana cara memperbaiki masalah ini?

OCR (Pengenalan Karakter Optik) adalah teknologi yang menganalisis gambar teks dan mengubahnya menjadi karakter yang benar-benar dapat dibaca mesin. Perangkat lunak melihat bentuk huruf, membandingkannya dengan pola yang diketahui, dan menghasilkan lapisan teks yang disematkan kembali ke dalam PDF.

Setelah pemrosesan OCR, Anda mendapatkan PDF yang dapat dicari dan dipilih - secara visual identik dengan aslinya, tetapi sekarang kursor Anda dapat menyorot kata, Ctrl+F dapat menemukan frasa, dan salin-tempel berfungsi normal. Pembaca layar dan alat aksesibilitas juga dapat membacanya.

Cara menerapkan OCR pada PDF yang dipindai

Ada beberapa cara untuk menambahkan OCR ke PDF yang dipindai, mulai dari alat browser gratis hingga perangkat lunak desktop:

  • Konversi ke Word, lalu simpan sebagai PDF: Konverter PDF ke Word kami mengekstrak konten visual dan mengubahnya menjadi dokumen Word yang dapat diedit. Di Word, teks sepenuhnya dapat dipilih. Anda kemudian dapat mengekspor kembali ke PDF dengan lapisan teks yang tepat.
  • Adobe Acrobat (berbayar): Alat standar industri. Buka PDF, pergi ke Alat → Pindai & OCR → Kenali Teks, dan Acrobat menambahkan lapisan teks secara langsung. Mahal tetapi sangat akurat.
  • Google Drive (gratis): Unggah PDF yang dipindai ke Google Drive, klik kanan, dan pilih "Buka dengan Google Dokumen." Google secara otomatis menjalankan OCR dan membuka teks dalam dokumen Docs. Bekerja sangat baik untuk pindaian yang bersih.
  • Tesseract OCR (gratis, sumber terbuka): Mesin OCR baris perintah yang kuat yang digunakan oleh banyak aplikasi. Terbaik untuk pengembang atau pengguna teknis yang menginginkan solusi self-hosted gratis.
  • Adobe Acrobat online (gratis terbatas): Adobe menawarkan pemrosesan OCR gratis terbatas melalui alat online mereka untuk pengguna tanpa langganan.

Tips untuk akurasi OCR yang lebih baik

Kualitas OCR sangat bergantung pada kualitas pindaian asli. Ikuti tips berikut untuk memaksimalkan akurasi:

  • Pindai di 300 DPI atau lebih tinggi: Pindaian resolusi rendah menghasilkan karakter buram yang salah dibaca oleh mesin OCR. 300 DPI adalah minimum; 600 DPI ideal untuk teks kecil atau dokumen detail.
  • Gunakan hitam-putih untuk dokumen teks: Pindaian berwarna menambah ukuran file tanpa meningkatkan akurasi OCR untuk teks biasa. Hitam-putih atau skala abu-abu sudah cukup untuk sebagian besar dokumen.
  • Jaga halaman tetap lurus: Halaman yang miring atau condong membingungkan perangkat lunak OCR. Sebagian besar alat modern dapat memperbaiki kemiringan secara otomatis, tetapi mulai lurus membantu.
  • Hindari noda kopi dan kotoran: Tanda fisik pada dokumen terbaca sebagai karakter. Bersihkan dokumen asli jika memungkinkan.
  • Periksa hasilnya: OCR tidak 100% akurat. Selalu periksa hasilnya, terutama untuk angka, tanda baca, dan bagian tulisan tangan.

Setelah OCR: kurangi ukuran file jika diperlukan

Pemrosesan OCR terkadang dapat meningkatkan ukuran file PDF karena menambahkan lapisan teks tersembunyi di atas lapisan gambar yang ada. Jika file yang dihasilkan terlalu besar, gunakan kompresor PDF kami untuk mengurangi ukuran tanpa kehilangan kualitas visual.

Bagaimana jika OCR tidak mengenali teks dengan benar?

Akurasi OCR bergantung pada kualitas pindaian asli. Hasil yang buruk umum terjadi dengan: font yang sangat kecil (di bawah 8pt), teks tulisan tangan, font dekoratif atau tidak biasa, tinta yang pudar, atau pindaian berkualitas rendah di bawah 200 DPI. Dalam kasus ini, pengetikan ulang manual mungkin diperlukan - atau memindai ulang dokumen asli dengan kualitas lebih tinggi sebelum menjalankan OCR lagi.

Pertanyaan yang Sering Diajukan

Mengapa teks di PDF saya tidak bisa dipilih?
PDF Anda adalah gambar yang dipindai, bukan dokumen dengan lapisan teks yang disematkan. Ketika dokumen kertas dipindai dan disimpan sebagai PDF, hasilnya pada dasarnya adalah foto halaman - piksel berbentuk huruf, tetapi bukan teks yang sebenarnya. Untuk membuatnya dapat dipilih, Anda perlu menjalankan OCR (Pengenalan Karakter Optik) untuk menambahkan lapisan teks.
Apakah ada cara gratis untuk membuat teks PDF yang dipindai bisa dipilih?
Ya - Google Drive menawarkan OCR gratis: unggah PDF, klik kanan dan buka dengan Google Dokumen. Google secara otomatis mengenali teks. Atau, konverter PDF ke Word kami mengekstrak konten ke dalam dokumen yang dapat diedit. Untuk solusi desktop yang sepenuhnya gratis, Tesseract OCR adalah sumber terbuka dan sangat kuat.
Apakah OCR mengubah tampilan PDF?
Tidak - OCR menambahkan lapisan teks yang tidak terlihat di balik gambar yang ada. Tampilan visual PDF tetap persis sama. Anda hanya mendapatkan kemampuan untuk memilih, menyalin, dan mencari teks. Satu-satunya pengecualian adalah jika Anda mengonversi ke Word dan mengekspor ulang, di mana perubahan format kecil mungkin terjadi.
Seberapa akurat OCR pada dokumen yang dipindai?
OCR modern memiliki akurasi 95-99% pada dokumen yang dipindai dengan bersih pada 300 DPI atau lebih tinggi. Akurasi menurun secara signifikan untuk pindaian resolusi rendah, tulisan tangan, font tidak biasa, atau halaman dengan kerusakan fisik. Selalu periksa hasilnya sebelum mengandalkannya untuk dokumen penting.
Bisakah saya membuat teks tulisan tangan di PDF bisa dipilih dengan OCR?
OCR standar bekerja buruk pada tulisan tangan - ini dirancang untuk teks yang dicetak dan diketik. Alat pengenalan tulisan tangan khusus ada tetapi jauh kurang akurat dari OCR teks cetak. Jika dokumen memiliki campuran cetak dan tulisan tangan, OCR akan mengenali bagian cetak dengan benar tetapi kemungkinan salah membaca bagian tulisan tangan.

Artikel Terkait