OpenPDFTools

Besedilo skeniranega PDF-ja ni mogoče označiti - kako to popraviti z OCR

Martin PavličPosodobljeno 8. april 20266 min branja
Deli
Besedilo skeniranega PDF-ja ni mogoče označiti - kako to popraviti z OCR

Zakaj ne morete izbrati besedila v skeniranem PDF-ju?

Ko je dokument fizično skeniran in shranjen kot PDF, skener posname ravno sliko strani - podobno kot fotografiranje. Nastala datoteka ne vsebuje nobenih dejanskih besedilnih znakov, le piksle, razporejene tako, da izgledajo kot črke. Zato klik kjerkoli v dokumentu ne izbere ničesar: vaš kurzor nima besedilnega sloja, ki bi ga lahko prijel.

To je ena izmed najpogostejših težav s PDF-ji. Dokument na zaslonu izgleda popolnoma berljivo, a je v bistvu fotografija, vstavljena v PDF ovojnico. Ne morete ga iskati, kopirati iz njega ali pustiti bralnika zaslona, da ga prebere.

Kaj je OCR in kako to popravlja?

OCR (Optical Character Recognition) je tehnologija, ki analizira sliko besedila in jo pretvori v dejanske, strojno berljive znake. Programska oprema pogleda oblike črk, jih primerja z znanimi vzorci in ustvari besedilni sloj, ki se vstavi nazaj v PDF.

Po obdelavi z OCR dobite iskalni, označljiv PDF - vizualno enak originalu, vendar zdaj vaš kurzor lahko označuje besede, Ctrl+F lahko najde fraze, kopiranje in lepljenje pa deluje normalno. Bralniki zaslona in orodja za dostopnost ga prav tako lahko berejo.

Kako uporabiti OCR na skeniranem PDF-ju

Obstaja več načinov za dodajanje OCR skeniranem PDF-ju, od brezplačnih brskalniških orodij do namizne programske opreme:

  • Pretvorba v Word, nato shranjevanje kot PDF: Naš pretvornik PDF v Word ekstrahira vizualno vsebino in jo pretvori v urejljiv Word dokument. Ko je enkrat v Wordu, je besedilo v celoti označljivo. Nato ga lahko znova izvozite v PDF z ustreznim besedilnim slojem.
  • Adobe Acrobat (plačljiv): Industrijski standard. Odprite PDF, pojdite na Orodja → Skeniranje & OCR → Prepoznaj besedilo in Acrobat neposredno doda besedilni sloj. Drago, a zelo natančno.
  • Google Drive (brezplačno): Naložite skenirani PDF na Google Drive, z desno tipko kliknite nanj in izberite "Odpri z Google Docs." Google samodejno zažene OCR in odpre besedilo v dokumentu Docs. Presenetljivo dobro deluje za čiste skene.
  • Tesseract OCR (brezplačno, odprtokodno): Zmogljiv OCR engine ukazne vrstice, ki ga uporablja veliko aplikacij. Najboljši za razvijalce ali tehnične uporabnike, ki želijo brezplačno samogostiteljsko rešitev.
  • Adobe Acrobat online (omejeno brezplačno): Adobe ponuja omejeno brezplačno OCR obdelavo prek svojih spletnih orodij za uporabnike brez naročnine.

Nasveti za boljšo natančnost OCR

Kakovost OCR je v veliki meri odvisna od kakovosti originalnega skena. Upoštevajte te nasvete za maksimalno natančnost:

  • Skenirajte pri 300 DPI ali več: Skeni z nižjo ločljivostjo proizvajajo zamegljene znake, ki jih OCR engine napačno bere. 300 DPI je minimum; 600 DPI je idealno za majhno besedilo ali podrobne dokumente.
  • Uporabite črno-belo za besedilne dokumente: Barvni skeni povečajo velikost datoteke brez izboljšanja natančnosti OCR za navadno besedilo. Črno-bela ali odtenki sive zadostuje za večino dokumentov.
  • Ohranjajte strani ravno: Nagnjene ali poševne strani zmotijo programsko opremo OCR. Večina sodobnih orodij se lahko samodejno poravna, a začetek z ravno stranjo pomaga.
  • Izogibajte se madežem od kave in smetiščem: Fizične oznake na dokumentu se napačno berejo kot znaki. Če je mogoče, očistite original.
  • Preverite izhod: OCR ni 100% natančen. Vedno preglejte rezultat, zlasti za številke, ločila in ročno pisane dele.

Po OCR: zmanjšajte velikost datoteke, če je potrebno

Obdelava OCR včasih poveča velikost PDF datoteke, ker doda skrit besedilni sloj na vrh obstoječe slikovne plasti. Če je nastala datoteka prevelika, uporabite naš PDF kompresor za zmanjšanje velikosti brez izgube vizualne kakovosti.

Kaj storiti, če OCR ne prepozna besedila pravilno?

Natančnost OCR je odvisna od kakovosti originalnega skena. Slabi rezultati so pogosti pri: zelo majhnih pisavah (pod 8 pt), ročno pisanem besedilu, dekorativnih ali neobičajnih pisavah, zbledeli črnilu ali skeniranju nizke kakovosti pod 200 DPI. V teh primerih je morda potrebno ročno prepisovanje - ali ponovna skenacija originalnega dokumenta v višji kakovosti pred ponovnim zagonom OCR.

Pogosta vprašanja

Zakaj besedilo v mojem PDF-ju ni mogoče označiti?
Vaš PDF je skenirana slika, ne dokument z vgrajenim besedilnim slojem. Ko se papirni dokument skenira in shrani kot PDF, je rezultat v bistvu fotografija strani - piksli v obliki črk, vendar ne dejansko besedilo. Da bi ga lahko izbirali, morate zagnati OCR (Optical Character Recognition) za dodajanje besedilnega sloja.
Ali obstaja brezplačen način za označitev besedila skeniranega PDF-ja?
Da - Google Drive ponuja brezplačni OCR: naložite PDF, z desno tipko kliknite nanj in odprite z Google Docs. Google samodejno prepozna besedilo. Alternativno lahko uporabite naš pretvornik PDF v Word, ki ekstrahira vsebino v urejljiv dokument. Za popolnoma brezplačno namizno rešitev je Tesseract OCR odprtokoden in zelo zmogljiv.
Ali OCR spremeni videz PDF-ja?
Ne - OCR doda neviden besedilni sloj za obstoječo sliko. Vizualni videz PDF-ja ostane popolnoma enak. Pridobite le možnost izbiranja, kopiranja in iskanja besedila. Edina izjema je, če pretvorite v Word in znova izvozite, kjer se lahko pojavijo manjše spremembe oblikovanja.
Kako natančen je OCR na skeniranih dokumentih?
Sodoben OCR je 95–99% natančen za čiste, dobro skenirane dokumente pri 300 DPI ali več. Natančnost se znatno zmanjša za skene z nizko ločljivostjo, rokopis, neobičajne pisave ali strani s fizičnimi poškodbami. Vedno preglejte izhod, preden se zanašate nanj za pomembne dokumente.
Ali lahko z OCR označim besedilo ročno pisanega PDF-ja?
Standardni OCR slabo deluje z ročnim pisanjem - zasnovan je za tiskano, tipkano besedilo. Obstajajo specializirana orodja za prepoznavanje rokopisa, a so veliko manj natančna kot OCR za tiskano besedilo. Če dokument vsebuje kombinacijo tiskanih in ročno pisanih delov, bo OCR pravilno prepoznal tiskane dele, ročno pisane dele pa bo verjetno napačno prebral.

Sorodni članki