OpenPDFTools

Tekst i skannet PDF ikke markerbar - Slik løser du det med OCR

Martin PavličUppdaterad 8. april 20266 min læst
Dele
Tekst i skannet PDF ikke markerbar - Slik løser du det med OCR

Hvorfor kan du ikke velge tekst i en skannet PDF?

Når et dokument fysisk skannes og lagres som PDF, tar skanneren et flatt bilde av siden - akkurat som å ta et foto. Den resulterende filen inneholder ingen faktiske teksttegn, bare piksler arrangert til å se ut som bokstaver. Det er derfor et klikk et sted i dokumentet ikke velger noe: det finnes ingen tekstlag for markøren å gripe tak i.

Dette er en av de vanligste PDF-frustrasjonene. Dokumentet ser perfekt lesbart ut på skjermen, men det er i bunn og grunn et fotografi innebygd i en PDF-wrapper. Du kan ikke søke i det, kopiere fra det eller la en skjermleser tolke det.

Hva er OCR og hvordan løser det dette?

OCR (Optical Character Recognition) er en teknologi som analyserer bildet av tekst og konverterer det til faktiske, maskinlesbare tegn. Programvaren ser på bokstavenes former, sammenligner dem med kjente mønstre og produserer et tekstlag som legges tilbake inn i PDF-en.

Etter OCR-behandling får du en søkbar, markerbar PDF - visuelt identisk med originalen, men nå kan markøren markere ord, Ctrl+F kan finne fraser, og kopier-lim inn fungerer normalt. Skjermlesere og tilgjengelighetsverktøy kan også lese den.

Slik bruker du OCR på en skannet PDF

Det finnes flere måter å legge til OCR i en skannet PDF på, fra gratis nettleserverktøy til skrivebordsprogramvare:

  • Konverter til Word, lagre deretter som PDF: Vår PDF til Word-konverter trekker ut det visuelle innholdet og konverterer det til et redigerbart Word-dokument. I Word er teksten fullt markerbar. Du kan deretter re-eksportere til PDF med et korrekt tekstlag.
  • Adobe Acrobat (betalt): Bransjestandardverktøyet. Åpne PDF-en, gå til Verktøy → Skann & OCR → Gjenkjenn tekst, og Acrobat legger direkte til et tekstlag. Dyrt men meget nøyaktig.
  • Google Drive (gratis): Last opp den skannede PDF-en til Google Drive, høyreklikk på den og velg "Åpne med Google Docs." Google kjører automatisk OCR og åpner teksten i et Docs-dokument. Fungerer overraskende bra for rene skanninger.
  • Tesseract OCR (gratis, åpen kildekode): En kraftig kommandolinje-OCR-motor brukt av mange apper. Best for utviklere eller tekniske brukere som ønsker en gratis selvdriftet løsning.
  • Adobe Acrobat online (begrenset gratis): Adobe tilbyr begrenset gratis OCR-behandling via sine nettverktøy for brukere uten abonnement.

Tips for bedre OCR-nøyaktighet

OCR-kvalitet avhenger sterkt av kvaliteten på den originale skanningen. Følg disse tipsene for å maksimere nøyaktigheten:

  • Skann ved 300 DPI eller høyere: Skanninger med lavere oppløsning produserer uklare tegn som OCR-motorer leser feil. 300 DPI er minimum; 600 DPI er ideelt for liten tekst eller detaljerte dokumenter.
  • Bruk svart-hvitt for tekstdokumenter: Fargeskanninger øker filstørrelsen uten å forbedre OCR-nøyaktighet for ren tekst. Svart-hvitt eller gråtoner er tilstrekkelig for de fleste dokumenter.
  • Hold sidene rette: Skjeve eller vinklete sider forvirrer OCR-programvare. De fleste moderne verktøy kan auto-rette, men å starte rett hjelper.
  • Unngå kaffeflekker og flekker: Fysiske merker på dokumentet leses feil som tegn. Rengjør originalen om mulig.
  • Sjekk resultatet: OCR er ikke 100% nøyaktig. Korrekturles alltid resultatet, spesielt for tall, tegnsetting og håndskrevne avsnitt.

Etter OCR: reduser filstørrelse om nødvendig

OCR-behandling kan noen ganger øke PDF-filstørrelsen fordi det legger til et skjult tekstlag oppå det eksisterende bilderlaget. Hvis den resulterende filen er for stor, bruk vår PDF-kompressor for å redusere størrelsen uten å miste visuell kvalitet.

Hva om OCR ikke gjenkjenner teksten korrekt?

OCR-nøyaktighet avhenger av kvaliteten på den originale skanningen. Dårlige resultater er vanlige med: veldig små skrifttyper (under 8pt), håndskrevet tekst, dekorative eller uvanlige skrifttyper, falmet blekk eller skanninger av lav kvalitet under 200 DPI. I disse tilfellene kan manuell omskriving være nødvendig - eller å skanne originaldokumentet på nytt med høyere kvalitet før OCR kjøres igjen.

Vanliga frågor

Hvorfor er tekst i PDF-en min ikke markerbar?
PDF-en din er et skannet bilde, ikke et dokument med et innebygd tekstlag. Når et papirdokument skannes og lagres som PDF, er resultatet i bunn og grunn et foto av siden - piksler formet som bokstaver, men ikke faktisk tekst. For å gjøre det markerbart må du kjøre OCR (Optical Character Recognition) for å legge til et tekstlag.
Finnes det en gratis måte å gjøre skannet PDF-tekst markerbar?
Ja - Google Drive tilbyr gratis OCR: last opp PDF-en, høyreklikk og åpne med Google Docs. Google gjenkjenner automatisk teksten. Alternativt trekker vår PDF til Word-konverter ut innholdet til et redigerbart dokument. For en helt gratis skrivebordsløsning er Tesseract OCR åpen kildekode og svært kraftig.
Endrer OCR hvordan PDF-en ser ut?
Nei - OCR legger til et usynlig tekstlag bak det eksisterende bildet. PDF-ens visuelle utseende forblir nøyaktig det samme. Du får bare muligheten til å markere, kopiere og søke i teksten. Det eneste unntaket er hvis du konverterer til Word og re-eksporterer, der mindre formateringsendringer kan oppstå.
Hvor nøyaktig er OCR på skannede dokumenter?
Moderne OCR er 95–99% nøyaktig på rene, velskan­nede dokumenter ved 300 DPI eller høyere. Nøyaktigheten synker betydelig for skanninger med lav oppløsning, håndskrift, uvanlige skrifttyper eller sider med fysisk skade. Korrekturles alltid resultatet før du stoler på det for viktige dokumenter.
Kan jeg gjøre håndskrevet PDF-tekst markerbar med OCR?
Standard OCR fungerer dårlig på håndskrift - det er designet for trykt, maskinskrevet tekst. Spesialiserte håndskriftsgjenkjenningsverktøy finnes men er langt mindre nøyaktige enn trykt-tekst OCR. Hvis dokumentet har blandet trykk og håndskrift, vil OCR korrekt gjenkjenne de trykte delene men sannsynligvis lese de håndskrevne avsnittene feil.

Relaterade artiklar