OpenPDFTools

Skenēta PDF teksts nav atlasāms - kā to novērst ar OCR

Martin PavličAtjaunināts 2026. gada 8. aprīlis6 min. lasīšanas laiks
Kopīgot
Skenēta PDF teksts nav atlasāms - kā to novērst ar OCR

Kāpēc nevar atlasīt tekstu skenētā PDF?

Kad dokuments tiek fiziski skenēts un saglabāts kā PDF, skeneris uztver lapas plakano attēlu - tāpat kā fotogrāfiju. Iegūtais fails nesatur reālus teksta rakstzīmes, tikai pikseļus, kas izkārtoti, lai izskatītos kā burti. Tāpēc, klikšķinot jebkur dokumentā, nekas netiek atlasīts: nav teksta slāņa, ko kursors varētu sagrābt.

Tas ir viens no biežākajiem PDF traucējumiem. Dokuments ekrānā izskatās pilnīgi lasāms, bet būtībā ir fotogrāfija, kas iegulta PDF apvalkā. Jūs nevarat to meklēt, kopēt no tā vai ļaut ekrāna lasītājam to apstrādāt.

Kas ir OCR un kā tas novērš šo problēmu?

OCR (optiskā rakstzīmju atpazīšana) ir tehnoloģija, kas analizē teksta attēlu un pārvērš to reālās, mašīnlasāmās rakstzīmēs. Programmatūra aplūko burtu formas, salīdzina tās ar zināmiem modeļiem un izveido teksta slāni, kas tiek iegults atpakaļ PDF.

Pēc OCR apstrādes Jūs iegūstat PDF ar meklēšanas un atlasīšanas iespēju - vizuāli identisks oriģinālam, bet tagad kursors var iezīmēt vārdus, Ctrl+F var atrast frāzes, un kopēšana-ielīmēšana darbojas normāli. Ekrāna lasītāji un pieejamības rīki to arī var lasīt.

Kā pielietot OCR skenētam PDF

Ir vairāki veidi, kā pievienot OCR skenētam PDF - no bezmaksas pārlūkprogrammas rīkiem līdz darbvirsmas programmatūrai:

  • Konvertēt uz Word, tad saglabāt kā PDF: Mūsu PDF uz Word pārveidotājs izvelk vizuālo saturu un pārvērš to rediģējamā Word dokumentā. Word programmā teksts ir pilnībā atlasāms. Pēc tam varat atkārtoti eksportēt uz PDF ar pareizu teksta slāni.
  • Adobe Acrobat (maksas): Nozares standarts. Atveriet PDF, dodieties uz Rīki → Skenēšana un OCR → Atpazīt tekstu, un Acrobat tiešā veidā pievieno teksta slāni. Dārgs, bet ļoti precīzs.
  • Google Drive (bezmaksas): Augšupielādējiet skenēto PDF pakalpojumā Google Drive, noklikšķiniet ar peles labo pogu un izvēlieties "Atvērt ar Google Docs". Google automātiski palaiž OCR un atver tekstu Docs dokumentā. Darbojas pārsteidzoši labi tīriem skeniem.
  • Tesseract OCR (bezmaksas, atvērtā koda): Jaudīgs komandrindas OCR dzinējs, ko izmanto daudzas lietotnes. Vislabāk piemērots izstrādātājiem vai tehniskiem lietotājiem, kuri vēlas bezmaksas pašmājas risinājumu.
  • Adobe Acrobat online (ierobežoti bezmaksas): Adobe piedāvā ierobežotu bezmaksas OCR apstrādi, izmantojot tiešsaistes rīkus lietotājiem bez abonementa.

Padomi labākai OCR precizitātei

OCR kvalitāte lielā mērā ir atkarīga no oriģinālā skenēšanas kvalitātes. Ievērojiet šos padomus, lai sasniegtu maksimālu precizitāti:

  • Skenējiet 300 DPI vai augstākā izšķirtspējā: Zemas izšķirtspējas skeni rada neskaidras rakstzīmes, kuras OCR dzinēji nolasa nepareizi. 300 DPI ir minimums; 600 DPI ir ideāls smalkam tekstam vai detalizētiem dokumentiem.
  • Tekstdokumentiem izmantojiet melnbalto režīmu: Krāsainie skeni palielina faila izmēru, neuzlabojot OCR precizitāti vienkāršam tekstam. Melnbaltais vai pelēktoņu režīms ir pietiekams lielākajai daļai dokumentu.
  • Turiet lapas taisnas: Slīpas vai šķiebtas lapas mulsina OCR programmatūru. Lielākā daļa mūsdienu rīku var automātiski izlīdzināt, taču sākt taisni palīdz.
  • Izvairieties no kafijas traipiem un smērējumiem: Fiziski atzīmes uz dokumenta tiek nepareizi nolasītas kā rakstzīmes. Ja iespējams, notīriet oriģinālu.
  • Pārbaudiet izvadi: OCR nav 100% precīzs. Vienmēr pārlasiet rezultātu, īpaši skaitļus, pieturzīmes un ar roku rakstītas sadaļas.

Pēc OCR: ja nepieciešams, samaziniet faila izmēru

OCR apstrāde dažreiz var palielināt PDF faila izmēru, jo pievieno slēptu teksta slāni virs esošā attēla slāņa. Ja iegūtais fails ir pārāk liels, izmantojiet mūsu PDF kompresoru, lai samazinātu izmēru, nezaudējot vizuālo kvalitāti.

Ko darīt, ja OCR nepareizi atpazīst tekstu?

OCR precizitāte ir atkarīga no oriģinālā skenēšanas kvalitātes. Slikti rezultāti ir raksturīgi: ļoti maziem fontiem (zem 8pt), ar roku rakstītam tekstam, dekoratīviem vai neparastiem fontiem, izbalējušai tintei vai zemas kvalitātes skeniem zem 200 DPI. Šādos gadījumos var būt nepieciešams manuāls pārrakstīšanas darbs - vai oriģinālā dokumenta atkārtota skenēšana augstākā kvalitātē pirms OCR atkārtošanas.

Biežāk uzdotie jautājumi

Kāpēc teksts manā PDF nav atlasāms?
Jūsu PDF ir skenēts attēls, nevis dokuments ar iegultu teksta slāni. Kad papīra dokuments tiek skenēts un saglabāts kā PDF, rezultāts būtībā ir lapas fotogrāfija - pikseļi burtu formā, bet ne reāls teksts. Lai to padarītu atlasāmu, Jums jāpalaiž OCR, lai pievienotu teksta slāni.
Vai ir bezmaksas veids, kā padarīt skenēta PDF tekstu atlasāmu?
Jā - Google Drive piedāvā bezmaksas OCR: augšupielādējiet PDF, noklikšķiniet ar labo pogu un atveriet ar Google Docs. Google automātiski atpazīst tekstu. Alternatīvi, mūsu PDF uz Word pārveidotājs izvelk saturu rediģējamā dokumentā. Pilnīgi bezmaksas darbvirsmas risinājumam Tesseract OCR ir atvērtā koda un ļoti jaudīgs.
Vai OCR maina PDF izskatu?
Nē - OCR pievieno neredzamu teksta slāni aiz esošā attēla. PDF vizuālais izskats paliek tieši tāds pats. Jūs vienkārši iegūstat iespēju atlasīt, kopēt un meklēt tekstu. Vienīgais izņēmums ir tad, ja konvertējat uz Word un atkārtoti eksportējat, kur var rasties nelieli formatēšanas izmaiņas.
Cik precīzs ir OCR skenētos dokumentos?
Mūsdienu OCR ir 95-99% precīzs tīros, labi skenētos dokumentos pie 300 DPI vai augstākas izšķirtspējas. Precizitāte ievērojami samazinās zemas izšķirtspējas skeniem, rokrakstam, neparastiem fontiem vai lapām ar fiziskiem bojājumiem. Vienmēr pārbaudiet izvadi, pirms paļaujaties uz to svarīgiem dokumentiem.
Vai ar OCR var padarīt ar roku rakstītu PDF tekstu atlasāmu?
Standarta OCR slikti darbojas ar rokrakstu - tas ir paredzēts drukātam, mašīnrakstītam tekstam. Pastāv specializēti rokraksta atpazīšanas rīki, taču tie ir daudz mazāk precīzi nekā drukāta teksta OCR. Ja dokumentā ir sajaukts drukāts un ar roku rakstīts teksts, OCR pareizi atpazīs drukātās daļas, bet visticamāk nepareizi nolasīs rokrakstā rakstītās sadaļas.

Saistītie raksti