Skaneeritud PDF tekst pole valitav - kuidas seda OCR-iga parandada

Miks ei saa skaneeritud PDF-is teksti valida?
Kui dokument füüsiliselt skaneeritakse ja salvestatakse PDF-ina, salvestab skanner lehe tasase pildi - täpselt nagu foto. Saadud fail ei sisalda tegelikke tekstimärke, ainult pikseleid, mis on paigutatud nii, et näeksid välja nagu tähed. Seetõttu ei valita dokumentis kuhugi klõpsates midagi: puudub tekstikiht, mille kursor saaks kinni haarata.
See on üks levinumaid PDF-i probleeme. Dokument näeb ekraanil täiesti loetav välja, kuid on sisuliselt PDF-ümbrisesse manustatud foto. Seda ei saa otsida, sealt kopeerida ega lasta ekraanilugejal seda tõlgendada.
Mis on OCR ja kuidas see probleemi lahendab?
OCR (optiline märgituvastus) on tehnoloogia, mis analüüsib teksti pilti ja teisendab selle tegelikeks, masinloetavateks märkideks. Tarkvara vaatab tähtede kujusid, võrdleb neid tuntud mustritega ning loob tekstikihi, mis manustatakse PDF-i tagasi.
Pärast OCR-töötlust saate otsitava ja valitava PDF-i - visuaalselt identne originaaliga, kuid nüüd saab kursor sõnu esile tõsta, Ctrl+F suudab fraase leida ning kopeerimine ja kleepimine toimib normaalselt. Ekraanilugejad ja juurdepääsetavustööriistad saavad seda samuti lugeda.
Kuidas rakendada OCR-i skaneeritud PDF-ile
Skaneeritud PDF-ile OCR-i lisamiseks on mitu võimalust - tasuta brauseri tööriistadest kuni töölauatarkvarani:
- Teisenda Wordiks, seejärel salvesta PDF-ina: Meie PDF Wordiks teisendaja eraldab visuaalse sisu ja teisendab selle redigeeritavaks Wordi dokumendiks. Wordis on tekst täielikult valitav. Seejärel saate eksportida tagasi PDF-ina koos korraliku tekstikihiga.
- Adobe Acrobat (tasuline): Valdkonna standard. Avage PDF, minge Tööriistad → Skannimine ja OCR → Teksti tuvastamine, ja Acrobat lisab tekstikihi otse. Kallis, kuid väga täpne.
- Google Drive (tasuta): Laadige skaneeritud PDF üles Google Drive’i, paremklõpsake ja valige "Ava Google Docsiga". Google käivitab OCR-i automaatselt ja avab teksti Docsi dokumendis. Toimib üllatavalt hästi puhaste skaneeringute puhul.
- Tesseract OCR (tasuta, avatud lähtekoodiga): Võimas käsuridade OCR-mootor, mida kasutavad paljud rakendused. Parim arendajatele või tehnilistele kasutajatele, kes soovivad tasuta ise hostitud lahendust.
- Adobe Acrobat online (piiratud tasuta): Adobe pakub piiratud tasuta OCR-töötlust oma veebipõhiste tööriistade kaudu kasutajatele, kellel pole tellimust.
Näpunäited parema OCR-täpsuse saavutamiseks
OCR-i kvaliteet sõltub suuresti algse skaneeringu kvaliteedist. Järgige neid näpunäiteid maksimaalse täpsuse saavutamiseks:
- Skaneeri 300 DPI või kõrgema eraldusvõimega: Madala eraldusvõimega skaneeringud tekitavad hägusaid märke, mida OCR-mootorid valesti loevad. 300 DPI on miinimum; 600 DPI on ideaalne väikese teksti või üksikasjalike dokumentide jaoks.
- Kasuta tekstidokumentide jaoks mustvalget režiimi: Värvilised skaneeringud suurendavad faili suurust, parandamata OCR-täpsust lihtsa teksti puhul. Mustvalge või halltoonides režiim on enamiku dokumentide jaoks piisav.
- Hoia lehed sirged: Kaldus või moonutatud lehed ajavad OCR-tarkvara segadusse. Enamik kaasaegseid tööriistu suudab automaatselt joondada, kuid alguses sirgelt alustamine aitab.
- Väldi kohviplekke ja määrimisi: Dokumendil olevad füüsilised märgid loetakse valesti märkidena. Puhasta originaal võimaluse korral.
- Kontrolli väljundit: OCR ei ole 100% täpne. Kontrolli alati tulemust, eriti numbrite, kirjavahemärkide ja käsitsi kirjutatud osade puhul.
Pärast OCR-i: vähenda vajadusel faili suurust
OCR-töötlus võib mõnikord suurendada PDF-faili suurust, kuna lisab olemasoleva pildikihi peale varjatud tekstikihi. Kui saadud fail on liiga suur, kasuta meie PDF-pakkijat, et vähendada suurust visuaalset kvaliteeti kaotamata.
Mida teha, kui OCR ei tunne teksti õigesti ära?
OCR-täpsus sõltub algse skaneeringu kvaliteedist. Halvad tulemused on tavalised: väga väikeste fontidega (alla 8pt), käsitsi kirjutatud teksti, dekoratiivsete või ebatavaliste fontide, tuhmunud tindi või alla 200 DPI madala kvaliteediga skaneeringute puhul. Sellistel juhtudel võib olla vajalik käsitsi ümberkirjutamine - või originaaldokumendi uuesti skaneerimmine kõrgema kvaliteediga enne OCR-i uuesti käivitamist.
Korduma kippuvad küsimused
Miks ei ole tekst minu PDF-is valitav?▾
Kas on tasuta viis muuta skaneeritud PDF-i tekst valitavaks?▾
Kas OCR muudab PDF-i välimust?▾
Kui täpne on OCR skaneeritud dokumentide puhul?▾
Kas saab OCR-iga muuta käsitsi kirjutatud PDF-i teksti valitavaks?▾
Seotud artiklid
Kas PDF-is puuduvad manustatud fondid? Parandage vale tekstikuva 7 sammuga
Kui teie PDF-tekst näeb mõnes teises seadmes välja teistsugune, on tavaliselt põhjuseks manustatud fondide puudumine. Siin on, kuidas seda kiiresti diagnoosida ja parandada. ✅
6 min lugemistPDF muutub pärast tihendamist uduseks? 7 viisi kvaliteedi säilitamiseks (2026)
Kas tihendasite PDF-faili ja tekst või pildid näevad nüüd udused välja? Siit saate teada, miks kvaliteet langeb ja kuidas vähendada faili suurust loetavust kahjustamata. ✅
6 min lugemistKas ei saa iPhone'is või Androidis PDF-i avada? 6 kiirparandust (2026)
Kas teil on raskusi PDF-faili avamisega oma iPhone'is või Androidis? Siit saate teada, miks võite näha tühja ekraani ja kuidas vaadata dokumente ilma raskeid rakendusi installimata. ✅
5 min lugemist