OpenPDFTools

Szkennelt PDF szöveg nem jelölhető ki - Hogyan javítható OCR-rel

Martin PavličFrissítve: 2026. április 8.6 perc olvasás
Megosztás
Szkennelt PDF szöveg nem jelölhető ki - Hogyan javítható OCR-rel

Miért nem lehet szöveget kijelölni egy szkennelt PDF-ben?

Ha egy dokumentumot fizikailag beszkennelnek és PDF-ként mentik el, a szkenner az oldal lapos képét rögzíti - ugyanúgy, mintha fotót készítenénk. A kapott fájl nem tartalmaz tényleges szöveges karaktereket, csak betűkre emlékeztető pixeleket. Ezért ha bárhol a dokumentumra kattint, semmi sem jelölődik ki: nincs szöveges réteg, amelybe a kurzor belekapaszkodhatna.

Ez az egyik leggyakoribb PDF-bosszúság. A dokumentum tökéletesen olvashatónak tűnik a képernyőn, de lényegében egy PDF burkolóba ágyazott fénykép. Nem kereshet benne, nem másolhat belőle, és a képernyőolvasó sem képes értelmezni.

Mi az OCR, és hogyan javítja ezt?

Az OCR (Optical Character Recognition) olyan technológia, amely elemzi a szöveg képét, és tényleges, gépileg olvasható karakterekké alakítja. A szoftver megvizsgálja a betűk alakját, összehasonlítja azokat az ismert mintázatokkal, és létrehoz egy szöveges réteget, amelyet visszaágyaz a PDF-be.

Az OCR feldolgozás után egy kereshető, kijelölhető PDF-et kap - vizuálisan azonosat az eredetivel, de mostantól a kurzor képes szavakat kiemelni, a Ctrl+F megtalálhatja a kifejezéseket, és a másolás-beillesztés normálisan működik. A képernyőolvasók és az akadálymentességi eszközök is képesek olvasni.

Hogyan alkalmazzon OCR-t egy szkennelt PDF-re

Többféleképpen adhat OCR-t egy szkennelt PDF-hez, az ingyenes böngészős eszközöktől az asztali szoftverekig:

  • Konvertálja Word-be, majd mentse PDF-ként: A PDF-ből Word-be konvertálónk kinyeri a vizuális tartalmat és szerkeszthető Word dokumentummá alakítja. A Word-ben a szöveg teljesen kijelölhető lesz. Ezután megfelelő szöveges réteggel újra exportálhatja PDF-be.
  • Adobe Acrobat (fizetős): Az iparági szabvány eszköz. Nyissa meg a PDF-et, lépjen az Eszközök → Szkennelés & OCR → Szöveg felismerése menüpontra, és az Acrobat közvetlenül hozzáad egy szöveges réteget. Drága, de nagyon pontos.
  • Google Drive (ingyenes): Töltse fel a szkennelt PDF-et a Google Drive-ra, kattintson rá jobb gombbal, és válassza a "Megnyitás Google Dokumentumokkal" lehetőséget. A Google automatikusan futtatja az OCR-t, és megnyitja a szöveget egy Dokumentumok dokumentumban. Meglepően jól működik tiszta szkenneléseknél.
  • Tesseract OCR (ingyenes, nyílt forráskódú): Egy hatékony parancssoros OCR motor, amelyet sok alkalmazás használ. A legjobb fejlesztők vagy technikai felhasználók számára, akik ingyenes, önállóan hosztolt megoldást szeretnének.
  • Adobe Acrobat online (korlátozott ingyenes): Az Adobe korlátozott ingyenes OCR feldolgozást kínál online eszközein keresztül az előfizetés nélküli felhasználók számára.

Tippek a jobb OCR pontossághoz

Az OCR minősége nagymértékben függ az eredeti szkennelés minőségétől. Kövesse ezeket a tippeket a pontosság maximalizálásához:

  • Szkennelés 300 DPI vagy magasabb felbontáson: Az alacsony felbontású szkenneléseknél elmosódott karakterek keletkeznek, amelyeket az OCR motorok félreolvasnak. A 300 DPI a minimum; 600 DPI ideális kis betűméretű vagy részletes dokumentumokhoz.
  • Fekete-fehér használata szöveges dokumentumokhoz: A színes szkenneléseknél nagyobb a fájlméret, miközben nem javítja az OCR pontosságát egyszerű szövegnél. A fekete-fehér vagy szürkeárnyalatos elegendő a legtöbb dokumentumhoz.
  • Tartsa egyenesen az oldalakat: A dőlt vagy ferden befűzött oldalak összezavarják az OCR szoftvert. A legtöbb modern eszköz automatikusan javíthatja a dőlést, de az egyenes kezdés segít.
  • Kerülje a kávéfoltokat és smudge-okat: A dokumentum fizikai jelei karakterként kerülnek félreolvasásra. Ha lehetséges, tisztítsa meg az eredetit.
  • Ellenőrizze a kimenetet: Az OCR nem 100%-ig pontos. Mindig olvassa át az eredményt, különösen számokra, írásjelekre és kézzel írt részekre vonatkozóan.

OCR után: csökkentse a fájlméretet, ha szükséges

Az OCR feldolgozás néha növelheti a PDF fájlméretet, mivel egy rejtett szöveges réteget ad hozzá a meglévő képréteg tetejére. Ha a kapott fájl túl nagy, használja a PDF tömörítőnket a méret csökkentéséhez a vizuális minőség elvesztése nélkül.

Mi a teendő, ha az OCR nem ismeri fel helyesen a szöveget?

Az OCR pontossága az eredeti szkennelés minőségétől függ. Gyenge eredmények közösek ezekkel: nagyon kis betűméretek (8 pt alatt), kézzel írt szöveg, dekoratív vagy szokatlan betűtípusok, halvány tinta vagy 200 DPI alatti, alacsony minőségű szkenneléseknél. Ezekben az esetekben szükség lehet a kézi újragépelésre - vagy az eredeti dokumentum újraskennelésére magasabb minőségben az OCR ismételt futtatása előtt.

Gyakran ismételt kérdések

Miért nem jelölhető ki a szöveg a PDF-emben?
A PDF-je egy szkennelt kép, nem beágyazott szöveges réteggel rendelkező dokumentum. Amikor egy papírdokumentumot beszkennelnek és PDF-ként mentenek, az eredmény lényegében az oldal fényképe - betű alakú pixelek, de nem tényleges szöveg. A kijelölhetővé tételhez OCR-t (Optical Character Recognition) kell futtatnia szöveges réteg hozzáadásához.
Van ingyenes módszer a szkennelt PDF szöveg kijelölhetővé tételére?
Igen - a Google Drive ingyenes OCR-t kínál: töltse fel a PDF-et, kattintson rá jobb gombbal, és nyissa meg a Google Dokumentumokkal. A Google automatikusan felismeri a szöveget. Alternatívaként a PDF-ből Word-be konvertálónk kinyeri a tartalmat egy szerkeszthető dokumentumba. Teljesen ingyenes asztali megoldásként a Tesseract OCR nyílt forráskódú és nagyon hatékony.
Az OCR megváltoztatja a PDF megjelenését?
Nem - az OCR egy láthatatlan szöveges réteget ad hozzá a meglévő kép mögé. A PDF vizuális megjelenése pontosan ugyanolyan marad. Csak a szöveg kijelölésének, másolásának és keresésének képességét nyeri el. Az egyetlen kivétel, ha Word-be konvertálja és újra exportálja, ahol kisebb formázási változások fordulhatnak elő.
Mennyire pontos az OCR szkennelt dokumentumokon?
A modern OCR 95-99%-os pontosságot ér el tiszta, jól szkennelt dokumentumokon 300 DPI vagy magasabb felbontáson. A pontosság jelentősen csökken alacsony felbontású szkenneléseknél, kézírásnál, szokatlan betűtípusoknál vagy fizikailag sérült oldalaknál. Fontos dokumentumokra támaszkodás előtt mindig olvassa át a kimenetet.
Kijelölhetővé tehetem-e a kézzel írt PDF szöveget OCR-rel?
A normál OCR rosszul teljesít kézíráson - nyomtatott, gépelt szövegre tervezték. Speciális kézírás-felismerő eszközök léteznek, de jóval kevésbé pontosak, mint a nyomtatott szöveg OCR-je. Ha a dokumentum kevert nyomtatott és kézírásos tartalmat tartalmaz, az OCR helyesen felismeri a nyomtatott részeket, de valószínűleg félreolvassa a kézírásos részeket.

Kapcsolódó cikkek