OpenPDFTools

Text i skannad PDF inte markerbar - Så åtgärdar du det med OCR

Martin PavličUppdaterad 8 april 20266 min läst
Dela
Text i skannad PDF inte markerbar - Så åtgärdar du det med OCR

Varför kan ni inte markera text i en skannad PDF?

När ett dokument skannas fysiskt och sparas som PDF, fångar skannern en platt bild av sidan - precis som att ta ett foto. Den resulterande filen innehåller inga faktiska texttecken, bara pixlar arrangerade för att se ut som bokstäver. Det är därför ett klick var som helst i dokumentet inte markerar något: det finns inget textlager för markören att greppa tag i.

Det här är en av de vanligaste PDF-frustrationerna. Dokumentet ser perfekt läsbart ut på skärmen, men det är i grunden ett fotografi inbäddat i ett PDF-omslag. Ni kan inte söka i det, kopiera från det eller låta en skärmläsare tolka det.

Vad är OCR och hur löser det detta?

OCR (Optical Character Recognition) är en teknik som analyserar bilden av text och konverterar den till faktiska, maskinläsbara tecken. Programvaran tittar på bokstavernas former, jämför dem med kända mönster och producerar ett textlager som bäddas in i PDF:en igen.

Efter OCR-bearbetning får ni en sökbar, markerbar PDF - visuellt identisk med originalet, men nu kan markören markera ord, Ctrl+F kan hitta fraser och kopiera-klistra in fungerar normalt. Skärmläsare och tillgänglighetsverktyg kan också läsa den.

Hur ni tillämpar OCR på en skannad PDF

Det finns flera sätt att lägga till OCR i en skannad PDF, från gratis webbläsarverktyg till skrivbordsprogram:

  • Konvertera till Word, spara sedan som PDF: Vår PDF till Word-konverterare extraherar det visuella innehållet och konverterar det till ett redigerbart Word-dokument. I Word är texten helt markerbar. Ni kan sedan återexportera till PDF med ett korrekt textlager.
  • Adobe Acrobat (betald): Branschstandardverktyget. Öppna PDF:en, gå till Verktyg → Skanna & OCR → Känn igen text, och Acrobat lägger direkt till ett textlager. Dyrt men mycket exakt.
  • Google Drive (gratis): Ladda upp er skannade PDF till Google Drive, högerklicka på den och välj "Öppna med Google Docs." Google kör automatiskt OCR och öppnar texten i ett Docs-dokument. Fungerar förvånansvärt bra för rena skanningar.
  • Tesseract OCR (gratis, öppen källkod): En kraftfull OCR-motor för kommandoraden som används av många appar. Bäst för utvecklare eller tekniska användare som vill ha en gratis självhanterad lösning.
  • Adobe Acrobat online (begränsat gratis): Adobe erbjuder begränsad gratis OCR-bearbetning via sina onlineverktyg för användare utan prenumeration.

Tips för bättre OCR-noggrannhet

OCR-kvalitet beror starkt på kvaliteten på den ursprungliga skanningen. Följ dessa tips för att maximera noggrannheten:

  • Skanna vid 300 DPI eller högre: Skanningar med lägre upplösning producerar suddiga tecken som OCR-motorer läser fel. 300 DPI är minimum; 600 DPI är idealiskt för liten text eller detaljerade dokument.
  • Använd svartvitt för textdokument: Färgskanningar ökar filstorleken utan att förbättra OCR-noggrannheten för vanlig text. Svartvitt eller gråskala räcker för de flesta dokument.
  • Håll sidorna raka: Lutande eller sneda sidor förvirrar OCR-programvara. De flesta moderna verktyg kan autoräta, men att börja rakt hjälper.
  • Undvik kaffefläckar och kladd: Fysiska märken på dokumentet läses felaktigt som tecken. Rengör originalet om möjligt.
  • Kontrollera resultatet: OCR är inte 100% exakt. Korrekturläs alltid resultatet, särskilt för siffror, skiljetecken och handskrivna avsnitt.

Efter OCR: minska filstorleken vid behov

OCR-bearbetning kan ibland öka PDF-filstorleken eftersom det lägger till ett dolt textlager ovanpå det befintliga bildlagret. Om er resulterande fil är för stor, använd vår PDF-kompressor för att minska storleken utan att förlora visuell kvalitet.

Vad händer om OCR inte känner igen texten korrekt?

OCR-noggrannhet beror på kvaliteten på den ursprungliga skanningen. Dåliga resultat är vanliga med: mycket små teckensnitt (under 8pt), handskriven text, dekorativa eller ovanliga teckensnitt, bleknat bläck eller lågkvalitetsskanningar under 200 DPI. I dessa fall kan manuell omskrivning vara nödvändig - eller att skanna originaldokumentet på nytt med högre kvalitet innan OCR körs igen.

Vanliga frågor

Varför är text i min PDF inte markerbar?
Er PDF är en skannad bild, inte ett dokument med ett inbäddat textlager. När ett pappersdokument skannas och sparas som PDF är resultatet i grunden ett foto av sidan - pixlar formade som bokstäver, men inte faktisk text. För att göra det markerbart behöver ni köra OCR (Optical Character Recognition) för att lägga till ett textlager.
Finns det ett gratis sätt att göra skannad PDF-text markerbar?
Ja - Google Drive erbjuder gratis OCR: ladda upp PDF:en, högerklicka och öppna med Google Docs. Google känner automatiskt igen texten. Alternativt extraherar vår PDF till Word-konverterare innehållet till ett redigerbart dokument. För en helt gratis skrivbordslösning är Tesseract OCR öppen källkod och mycket kraftfull.
Ändrar OCR hur PDF:en ser ut?
Nej - OCR lägger till ett osynligt textlager bakom den befintliga bilden. PDF:ens visuella utseende förblir exakt detsamma. Ni får bara möjligheten att markera, kopiera och söka i texten. Det enda undantaget är om ni konverterar till Word och återexporterar, där mindre formateringsändringar kan uppstå.
Hur exakt är OCR på skannade dokument?
Modern OCR är 95–99% exakt på rena, välskannade dokument vid 300 DPI eller högre. Noggrannheten minskar avsevärt för lågupplösningsskanningar, handskrift, ovanliga teckensnitt eller sidor med fysisk skada. Korrekturläs alltid resultatet innan ni förlitar er på det för viktiga dokument.
Kan jag göra handskriven PDF-text markerbar med OCR?
Standard OCR fungerar dåligt på handskrift - det är designat för tryckt, typad text. Specialiserade handskriftsigenkänningsverktyg finns men är långt mindre exakta än OCR för tryckt text. Om dokumentet har blandad tryckt text och handskrift kommer OCR att korrekt känna igen de tryckta delarna men troligen läsa de handskrivna avsnitten fel.

Relaterade artiklar