OpenPDFTools

Skaneeritud PDF tekst pole valitav - kuidas seda OCR-iga parandada

Martin PavličUuendatud 8. aprill 20266 min lugemist
Jaga
Skaneeritud PDF tekst pole valitav - kuidas seda OCR-iga parandada

Miks ei saa skaneeritud PDF-is teksti valida?

Kui dokument füüsiliselt skaneeritakse ja salvestatakse PDF-ina, salvestab skanner lehe tasase pildi - täpselt nagu foto. Saadud fail ei sisalda tegelikke tekstimärke, ainult pikseleid, mis on paigutatud nii, et näeksid välja nagu tähed. Seetõttu ei valita dokumentis kuhugi klõpsates midagi: puudub tekstikiht, mille kursor saaks kinni haarata.

See on üks levinumaid PDF-i probleeme. Dokument näeb ekraanil täiesti loetav välja, kuid on sisuliselt PDF-ümbrisesse manustatud foto. Seda ei saa otsida, sealt kopeerida ega lasta ekraanilugejal seda tõlgendada.

Mis on OCR ja kuidas see probleemi lahendab?

OCR (optiline märgituvastus) on tehnoloogia, mis analüüsib teksti pilti ja teisendab selle tegelikeks, masinloetavateks märkideks. Tarkvara vaatab tähtede kujusid, võrdleb neid tuntud mustritega ning loob tekstikihi, mis manustatakse PDF-i tagasi.

Pärast OCR-töötlust saate otsitava ja valitava PDF-i - visuaalselt identne originaaliga, kuid nüüd saab kursor sõnu esile tõsta, Ctrl+F suudab fraase leida ning kopeerimine ja kleepimine toimib normaalselt. Ekraanilugejad ja juurdepääsetavustööriistad saavad seda samuti lugeda.

Kuidas rakendada OCR-i skaneeritud PDF-ile

Skaneeritud PDF-ile OCR-i lisamiseks on mitu võimalust - tasuta brauseri tööriistadest kuni töölauatarkvarani:

  • Teisenda Wordiks, seejärel salvesta PDF-ina: Meie PDF Wordiks teisendaja eraldab visuaalse sisu ja teisendab selle redigeeritavaks Wordi dokumendiks. Wordis on tekst täielikult valitav. Seejärel saate eksportida tagasi PDF-ina koos korraliku tekstikihiga.
  • Adobe Acrobat (tasuline): Valdkonna standard. Avage PDF, minge Tööriistad → Skannimine ja OCR → Teksti tuvastamine, ja Acrobat lisab tekstikihi otse. Kallis, kuid väga täpne.
  • Google Drive (tasuta): Laadige skaneeritud PDF üles Google Drive’i, paremklõpsake ja valige "Ava Google Docsiga". Google käivitab OCR-i automaatselt ja avab teksti Docsi dokumendis. Toimib üllatavalt hästi puhaste skaneeringute puhul.
  • Tesseract OCR (tasuta, avatud lähtekoodiga): Võimas käsuridade OCR-mootor, mida kasutavad paljud rakendused. Parim arendajatele või tehnilistele kasutajatele, kes soovivad tasuta ise hostitud lahendust.
  • Adobe Acrobat online (piiratud tasuta): Adobe pakub piiratud tasuta OCR-töötlust oma veebipõhiste tööriistade kaudu kasutajatele, kellel pole tellimust.

Näpunäited parema OCR-täpsuse saavutamiseks

OCR-i kvaliteet sõltub suuresti algse skaneeringu kvaliteedist. Järgige neid näpunäiteid maksimaalse täpsuse saavutamiseks:

  • Skaneeri 300 DPI või kõrgema eraldusvõimega: Madala eraldusvõimega skaneeringud tekitavad hägusaid märke, mida OCR-mootorid valesti loevad. 300 DPI on miinimum; 600 DPI on ideaalne väikese teksti või üksikasjalike dokumentide jaoks.
  • Kasuta tekstidokumentide jaoks mustvalget režiimi: Värvilised skaneeringud suurendavad faili suurust, parandamata OCR-täpsust lihtsa teksti puhul. Mustvalge või halltoonides režiim on enamiku dokumentide jaoks piisav.
  • Hoia lehed sirged: Kaldus või moonutatud lehed ajavad OCR-tarkvara segadusse. Enamik kaasaegseid tööriistu suudab automaatselt joondada, kuid alguses sirgelt alustamine aitab.
  • Väldi kohviplekke ja määrimisi: Dokumendil olevad füüsilised märgid loetakse valesti märkidena. Puhasta originaal võimaluse korral.
  • Kontrolli väljundit: OCR ei ole 100% täpne. Kontrolli alati tulemust, eriti numbrite, kirjavahemärkide ja käsitsi kirjutatud osade puhul.

Pärast OCR-i: vähenda vajadusel faili suurust

OCR-töötlus võib mõnikord suurendada PDF-faili suurust, kuna lisab olemasoleva pildikihi peale varjatud tekstikihi. Kui saadud fail on liiga suur, kasuta meie PDF-pakkijat, et vähendada suurust visuaalset kvaliteeti kaotamata.

Mida teha, kui OCR ei tunne teksti õigesti ära?

OCR-täpsus sõltub algse skaneeringu kvaliteedist. Halvad tulemused on tavalised: väga väikeste fontidega (alla 8pt), käsitsi kirjutatud teksti, dekoratiivsete või ebatavaliste fontide, tuhmunud tindi või alla 200 DPI madala kvaliteediga skaneeringute puhul. Sellistel juhtudel võib olla vajalik käsitsi ümberkirjutamine - või originaaldokumendi uuesti skaneerimmine kõrgema kvaliteediga enne OCR-i uuesti käivitamist.

Korduma kippuvad küsimused

Miks ei ole tekst minu PDF-is valitav?
Teie PDF on skaneeritud pilt, mitte manustatud tekstikihiga dokument. Kui paberidokument skaneeritakse ja salvestatakse PDF-ina, on tulemus sisuliselt foto lehest - tähtede kujuga pikselid, kuid mitte tegelik tekst. Selle valitavaks muutmiseks peate käivitama OCR-i tekstikihi lisamiseks.
Kas on tasuta viis muuta skaneeritud PDF-i tekst valitavaks?
Jah - Google Drive pakub tasuta OCR-i: laadige PDF üles, paremklõpsake ja avage Google Docsiga. Google tuvastab teksti automaatselt. Alternatiivina eraldab meie PDF Wordiks teisendaja sisu redigeeritavasse dokumenti. Täiesti tasuta töölauarakenduse jaoks on Tesseract OCR avatud lähtekoodiga ja väga võimas.
Kas OCR muudab PDF-i välimust?
Ei - OCR lisab nähtamatu tekstikihi olemasoleva pildi taha. PDF-i visuaalne välimus jääb täpselt samaks. Saate lihtsalt võimaluse teksti valida, kopeerida ja otsida. Ainus erand on see, kui teisendate Wordiks ja ekspordite uuesti, kus võivad esineda väikesed vormindusmuutused.
Kui täpne on OCR skaneeritud dokumentide puhul?
Kaasaegne OCR on 95-99% täpne puhaste, hästi skaneeritud dokumentide puhul 300 DPI või kõrgema eraldusvõimega. Täpsus langeb märkimisväärselt madala eraldusvõimega skaneeringute, käekirja, ebatavaliste fontide või füüsiliste kahjustustega lehtede puhul. Enne oluliste dokumentide jaoks kasutamist kontrolli alati väljundit.
Kas saab OCR-iga muuta käsitsi kirjutatud PDF-i teksti valitavaks?
Standardne OCR toimib käekirjaga halvasti - see on mõeldud trükitud, masinakirjas teksti jaoks. Olemas on spetsialiseeritud käekirja tuvastamise tööriistad, kuid need on trükitud teksti OCR-ist palju vähem täpsed. Kui dokumendis on trükitud ja käsitsi kirjutatud teksti segu, tuvastab OCR trükitud osad õigesti, kuid loeb käsitsi kirjutatud osad tõenäoliselt valesti.

Seotud artiklid