OpenPDFTools

Teks in geskandeerde PDF nie kiesbaar nie - Hoe om dit met OCR reg te stel

Martin PavličOpgedateer op 8 April 20266 min lees
Deel
Teks in geskandeerde PDF nie kiesbaar nie - Hoe om dit met OCR reg te stel

Hoekom kan u nie teks in ’n geskandeerde PDF kies nie?

Wanneer ’n dokument fisies geskandeer en as PDF gestoor word, neem die skandeerder ’n plat beeld van die bladsy - net soos ’n foto neem. Die gevolglike lêer bevat geen werklike tekstekens nie, slegs pixels gerangskik om soos letters te lyk. Dit is hoekom ’n klik enige plek in die dokument niks kies nie: daar is geen tekslaag vir u wyser om te gryp nie.

Dit is een van die mees algemene PDF-frustrasies. Die dokument lyk perfek leesbaar op die skerm, maar dit is in wese ’n foto ingebed in ’n PDF-omhulsel. U kan dit nie deursoek nie, daar nie van kopieer nie, of ’n skermleser dit nie laat verwerk nie.

Wat is OCR en hoe los dit dit op?

OCR (Optical Character Recognition) is ’n tegnologie wat die beeld van teks analiseer en dit omskakel na werklike, masjienlees­bare karakters. Die sagteware kyk na die vorms van letters, vergelyk dit met bekende patrone en produseer ’n tekslaag wat terug in die PDF ingebed word.

Na OCR-verwerking kry u ’n deursoekbare, kiesbare PDF - visueel identies aan die oorspronklike, maar nou kan u wyser woorde merk, Ctrl+F kan frases vind, en kopieer-plak werk normaal. Skermlesers en toeganklikheidsnutsgoed kan dit ook lees.

Hoe om OCR op ’n geskandeerde PDF toe te pas

Daar is verskeie maniere om OCR by ’n geskandeerde PDF te voeg, van gratis blaaiernutsgoed tot rekenaarprogramme:

  • Skakel om na Word, stoor dan as PDF: Ons PDF na Word-omskakelaar onttrek die visuele inhoud en skakel dit om na ’n redigeerbare Word-dokument. Eenmaal in Word is die teks volledig kiesbaar. U kan dit dan terug na PDF uitvoer met ’n behoorlike tekslaag.
  • Adobe Acrobat (betaald): Die industriestandaard-nutsding. Maak die PDF oop, gaan na Nutsgoed → Skandeer & OCR → Herken teks, en Acrobat voeg direk ’n tekslaag by. Duur maar hoogs akkuraat.
  • Google Drive (gratis): Laai u geskandeerde PDF op na Google Drive, regskliek daarop en kies "Open met Google Docs." Google voer outomaties OCR uit en maak die teks oop in ’n Docs-dokument. Werk verbasend goed vir skoon skanderings.
  • Tesseract OCR (gratis, oopbron): ’n Kragtige opdraglyn-OCR-enjin wat deur baie programme gebruik word. Die beste vir ontwikkelaars of tegniese gebruikers wat ’n gratis selfgegaste oplossing wil hê.
  • Adobe Acrobat aanlyn (beperk gratis): Adobe bied beperkte gratis OCR-verwerking via hul aanlyn-nutsgoed vir gebruikers sonder ’n intekening.

Wenke vir beter OCR-akkuraatheid

OCR-kwaliteit hang sterk af van die kwaliteit van die oorspronklike skandering. Volg hierdie wenke om akkuraatheid te maksimeer:

  • Skandeer teen 300 DPI of hoër: Skanderings met laer resolusie produseer wasige karakters wat OCR-enjins verkeerd lees. 300 DPI is die minimum; 600 DPI is ideaal vir klein teks of gedetailleerde dokumente.
  • Gebruik swart-en-wit vir teksdokumente: Kleurskanderings voeg lêergrootte by sonder om OCR-akkuraatheid vir gewone teks te verbeter. Swart-en-wit of gryskleur is voldoende vir die meeste dokumente.
  • Hou bladsye reguit: Skewe of verskeefde bladsye verwar OCR-sagteware. Die meeste moderne nutsgoed kan outomaties regmaak, maar om reguit te begin help.
  • Vermy koffievlekke en smere: Fisiese merke op die dokument word verkeerd gelees as karakters. Maak die oorspronklike skoon indien moontlik.
  • Kontroleer die uitset: OCR is nie 100% akkuraat nie. Proeflees altyd die resultaat, veral vir syfers, leestekens en handgeskrewe afdelings.

Na OCR: verminder lêergrootte indien nodig

OCR-verwerking kan soms die PDF-lêergrootte vergroot omdat dit ’n verborge tekslaag bo-op die bestaande beeldlaag byvoeg. As u gevolglike lêer te groot is, gebruik ons PDF-kompressor om die grootte te verminder sonder om visuele kwaliteit te verloor.

Wat as OCR die teks nie korrek herken nie?

OCR-akkuraatheid hang af van die kwaliteit van die oorspronklike skandering. Swak resultate is algemeen met: baie klein lettertipes (onder 8pt), handgeskrewe teks, dekoratiewe of ongewone lettertipes, vervaagde ink, of lae-kwaliteit skanderings onder 200 DPI. In hierdie gevalle kan handmatige hertikstering nodig wees - of die oorspronklike dokument teen hoër kwaliteit herskandeer voordat OCR weer uitgevoer word.

Gereelde vrae

Hoekom is teks in my PDF nie kiesbaar nie?
U PDF is ’n geskandeerde beeld, nie ’n dokument met ’n ingebedde tekslaag nie. Wanneer ’n papier­dokument geskandeer en as PDF gestoor word, is die resultaat in wese ’n foto van die bladsy - pixels gevorm soos letters, maar nie werklike teks nie. Om dit kiesbaar te maak, moet u OCR (Optical Character Recognition) uitvoer om ’n tekslaag by te voeg.
Is daar 'n gratis manier om geskandeerde PDF-teks kiesbaar te maak?
Ja - Google Drive bied gratis OCR: laai die PDF op, regskliek en maak oop met Google Docs. Google herken die teks outomaties. Alternatiewelik onttrek ons PDF na Word-omskakelaar die inhoud na ’n redigeerbare dokument. Vir ’n volledig gratis rekenaarlossing is Tesseract OCR oopbron en baie kragtig.
Verander OCR hoe die PDF lyk?
Nee - OCR voeg ’n onsigbare tekslaag by agter die bestaande beeld. Die visuele voorkoms van die PDF bly presies dieselfde. U kry slegs die vermoë om teks te kies, te kopieer en te deursoek. Die enigste uitsondering is as u na Word omskakel en heruitvoer, waar geringe opmaakveranderings kan voorkom.
Hoe akkuraat is OCR op geskandeerde dokumente?
Moderne OCR is 95–99% akkuraat op skoon, goed geskandeerde dokumente teen 300 DPI of hoër. Akkuraatheid daal aansienlik vir skanderings met lae resolusie, handskrif, ongewone lettertipes of bladsye met fisiese skade. Proeflees altyd die uitset voordat u dit vir belangrike dokumente vertrou.
Kan ek handgeskrewe PDF-teks kiesbaar maak met OCR?
Standaard OCR werk swak op handskrif - dit is ontwerp vir gedrukte, getikste teks. Gespesialiseerde handskrifherkenningsnutsgoed bestaan maar is ver minder akkuraat as gedrukte-teks OCR. As die dokument gemengde druk en handskrif het, sal OCR die gedrukte dele korrek herken maar waarskynlik die handgeskrewe afdelings verkeerd lees.

Verwante artikels