OpenPDFTools

Textul dintr-un PDF scanat nu poate fi selectat - Cum se rezolvă cu OCR

Martin PavličActualizat la 8 aprilie 20266 min de citit
Partajează
Textul dintr-un PDF scanat nu poate fi selectat - Cum se rezolvă cu OCR

De ce nu puteți selecta text dintr-un PDF scanat?

Când un document este scanat fizic și salvat ca PDF, scanerul capturează o imagine plată a paginii - exact ca și cum ar face o fotografie. Fișierul rezultat nu conține caractere de text reale, ci doar pixeli dispuși să semene cu litere. De aceea, dacă faceți clic oriunde în document, nu se selectează nimic: nu există un strat de text pe care cursorul să îl poată prinde.

Aceasta este una dintre cele mai frecvente frustrări legate de PDF-uri. Documentul pare perfect lizibil pe ecran, dar este în esență o fotografie încorporată într-un container PDF. Nu îl puteți căuta, copia sau lăsa un cititor de ecran să îl interpreteze.

Ce este OCR și cum rezolvă această problemă?

OCR (Recunoaștere Optică a Caracterelor) este o tehnologie care analizează imaginea textului și o convertește în caractere reale, lizibile de mașini. Software-ul examinează formele literelor, le compară cu modele cunoscute și generează un strat de text care este reinsertat în PDF.

După procesarea OCR, obțineți un PDF căutabil cu text selectabil - vizual identic cu originalul, dar acum cursorul poate evidenția cuvinte, Ctrl+F poate găsi fraze, iar copierea și lipirea funcționează normal. Cititoarele de ecran și instrumentele de accesibilitate îl pot citi de asemenea.

Cum se aplică OCR unui PDF scanat

Există mai multe modalități de a adăuga OCR unui PDF scanat, de la instrumente gratuite în browser la software pentru desktop:

  • Convertiți în Word, apoi salvați ca PDF: Convertorul nostru PDF în Word extrage conținutul vizual și îl convertește într-un document Word editabil. Odată în Word, textul este complet selectabil. Puteți apoi să reexportați în PDF cu un strat de text adecvat.
  • Adobe Acrobat (plătit): Instrumentul standard al industriei. Deschideți PDF-ul, mergeți la Instrumente → Scanare și OCR → Recunoaștere text, iar Acrobat adaugă direct un strat de text. Scump, dar foarte precis.
  • Google Drive (gratuit): Încărcați PDF-ul scanat în Google Drive, faceți clic dreapta și alegeți "Deschide cu Google Docs." Google rulează automat OCR și deschide textul într-un document Docs. Funcționează surprinzător de bine pentru scanări curate.
  • Tesseract OCR (gratuit, open source): Un motor OCR puternic în linie de comandă, folosit de multe aplicații. Ideal pentru dezvoltatori sau utilizatori tehnici care doresc o soluție gratuită găzduită local.
  • Adobe Acrobat online (gratuit limitat): Adobe oferă procesare OCR gratuită limitată prin instrumentele sale online pentru utilizatorii fără abonament.

Sfaturi pentru o precizie mai bună a OCR

Calitatea OCR depinde în mare măsură de calitatea scanării originale. Urmați aceste sfaturi pentru a maximiza precizia:

  • Scanați la 300 DPI sau mai mult: Scanările de rezoluție scăzută produc caractere neclare pe care motoarele OCR le citesc greșit. 300 DPI este minimul; 600 DPI este ideal pentru text mic sau documente detaliate.
  • Folosiți alb-negru pentru documentele de text: Scanările color măresc dimensiunea fișierului fără a îmbunătăți precizia OCR pentru text simplu. Alb-negrul sau scala de gri este suficient pentru majoritatea documentelor.
  • Mențineți paginile drepte: Paginile înclinate sau oblice derutează software-ul OCR. Majoritatea instrumentelor moderne pot corecta automat înclinarea, dar a începe drept ajută.
  • Evitați petele de cafea și murdăria: Marcajele fizice pe document sunt interpretate greșit ca și caractere. Curățați originalul dacă este posibil.
  • Verificați rezultatul: OCR nu este 100% precis. Verificați întotdeauna rezultatul, în special pentru cifre, punctuație și secțiuni scrise de mână.

După OCR: reduceți dimensiunea fișierului dacă este necesar

Procesarea OCR poate uneori mări dimensiunea fișierului PDF deoarece adaugă un strat de text ascuns peste stratul de imagine existent. Dacă fișierul rezultat este prea mare, utilizați compresorul nostru de PDF pentru a reduce dimensiunea fără a pierde calitatea vizuală.

Ce se întâmplă dacă OCR nu recunoaște corect textul?

Precizia OCR depinde de calitatea scanării originale. Rezultatele slabe sunt frecvente cu: fonturi foarte mici (sub 8 pt), text scris de mână, fonturi decorative sau neobișnuite, cerneală estompată sau scanări de calitate slabă sub 200 DPI. În aceste cazuri, retipărirea manuală poate fi necesară - sau rescanarea documentului original la calitate mai mare înainte de a rula din nou OCR.

Întrebări frecvente

De ce textul din PDF-ul meu nu este selectabil?
PDF-ul dumneavoastră este o imagine scanată, nu un document cu un strat de text încorporat. Când un document pe hârtie este scanat și salvat ca PDF, rezultatul este în esență o fotografie a paginii - pixeli cu forma literelor, dar nu text real. Pentru a-l face selectabil, trebuie să rulați OCR pentru a adăuga un strat de text.
Există o modalitate gratuită de a face selectabil textul dintr-un PDF scanat?
Da - Google Drive oferă OCR gratuit: încărcați PDF-ul, faceți clic dreapta și deschideți cu Google Docs. Google recunoaște automat textul. Alternativ, convertorul nostru PDF în Word extrage conținutul într-un document editabil. Pentru o soluție gratuită de desktop, Tesseract OCR este open source și foarte puternic.
OCR schimbă aspectul PDF-ului?
Nu - OCR adaugă un strat de text invizibil în spatele imaginii existente. Aspectul vizual al PDF-ului rămâne exact același. Câștigați doar capacitatea de a selecta, copia și căuta text. Singura excepție este dacă convertiți în Word și reexportați, unde pot apărea mici modificări de formatare.
Cât de precis este OCR pe documentele scanate?
OCR-ul modern are o precizie de 95-99% pe documente curate, bine scanate la 300 DPI sau mai mult. Precizia scade semnificativ pentru scanări de rezoluție scăzută, scriere de mână, fonturi neobișnuite sau pagini deteriorate fizic. Verificați întotdeauna rezultatul înainte de a-l folosi pentru documente importante.
Pot face selectabil cu OCR textul scris de mână dintr-un PDF?
OCR-ul standard funcționează slab pe scrierea de mână - este conceput pentru text tipărit și dactilografiat. Există instrumente specializate de recunoaștere a scrisului de mână, dar sunt mult mai puțin precise decât OCR-ul pentru text tipărit. Dacă documentul conține text tipărit și scris de mână amestecat, OCR va recunoaște corect părțile tipărite, dar probabil va citi greșit secțiunile scrise de mână.

Articole înrudite