OpenPDFTools

Text naskenovaného PDF nie je vyberateľný - ako to opraviť pomocou OCR

Martin PavličAktualizované 8. apríla 20266 min čítania
Zdieľať
Text naskenovaného PDF nie je vyberateľný - ako to opraviť pomocou OCR

Prečo nemôžete vybrať text v naskenovanom PDF?

Keď je dokument fyzicky naskenovaný a uložený ako PDF, skener zachytí plochý obrázok stránky - podobne ako keď odfotíte. Výsledný súbor neobsahuje žiadne skutočné textové znaky, iba pixely usporiadané tak, aby vyzerali ako písmená. Preto kliknutie kdekoľvek v dokumente nič nevyberie: váš kurzor nemá žiadnu textovú vrstvu, ktorú by mohol zachytiť.

Toto je jeden z najčastejších problémov s PDF. Dokument vyzerá na obrazovke dokonale čitateľne, ale je to v podstate fotografia vložená do PDF obálky. Nemôžete ho prehľadávať, kopírovať z neho, ani ho nechať prečítať programom na čítanie obrazovky.

Čo je OCR a ako to opravuje?

OCR (Optical Character Recognition) je technológia, ktorá analyzuje obrázok textu a prevádza ho na skutočné, strojovo čitateľné znaky. Softvér sa pozrie na tvary písmen, porovná ich so známymi vzormi a vytvorí textovú vrstvu, ktorá sa vloží späť do PDF.

Po spracovaní pomocou OCR získate prehľadávateľný, vyberateľný PDF - vizuálne identický s originálom, ale teraz môže váš kurzor zvýrazňovať slová, Ctrl+F dokáže nájsť frázy a kopírovanie a vkladanie funguje normálne. Môžu ho čítať aj programy na čítanie obrazovky a nástroje prístupnosti.

Ako aplikovať OCR na naskenovaný PDF

Existuje niekoľko spôsobov, ako pridať OCR do naskenovaného PDF, od bezplatných nástrojov v prehliadači až po desktopový softvér:

  • Konvertovať do Wordu, potom uložiť ako PDF: Náš konvertor PDF do Wordu extrahuje vizuálny obsah a prevádza ho na upraviteľný dokument Word. Po otvorení vo Worde je text plne vyberateľný. Môžete ho potom znovu exportovať do PDF so správnou textovou vrstvou.
  • Adobe Acrobat (platený): Priemyselný štandard. Otvorte PDF, prejdite na Nástroje → Skenovanie & OCR → Rozpoznať text a Acrobat pridá textovú vrstvu priamo. Drahý, ale veľmi presný.
  • Google Drive (zadarmo): Nahrajte naskenovaný PDF do Google Drive, kliknite naň pravým tlačidlom myši a vyberte "Otvoriť v Google Docs." Google automaticky spustí OCR a otvorí text v dokumente Docs. Funguje prekvapivo dobre pre čisté skeny.
  • Tesseract OCR (zadarmo, open-source): Výkonný príkazový riadok OCR engine používaný mnohými aplikáciami. Najlepší pre vývojárov alebo technicky zdatných používateľov, ktorí chcú bezplatné riešenie na vlastnom serveri.
  • Adobe Acrobat online (obmedzene zadarmo): Adobe ponúka obmedzené bezplatné spracovanie OCR cez svoje online nástroje pre používateľov bez predplatného.

Tipy pre lepšiu presnosť OCR

Kvalita OCR výrazne závisí od kvality pôvodného skenu. Dodržiavajte tieto tipy, aby ste maximalizovali presnosť:

  • Skenujte pri 300 DPI alebo viac: Skeny s nižším rozlíšením produkujú rozmazané znaky, ktoré OCR engine chybne číta. 300 DPI je minimum; 600 DPI je ideálne pre malý text alebo podrobné dokumenty.
  • Používajte čiernobiele pre textové dokumenty: Farebné skeny zvyšujú veľkosť súboru bez zlepšenia presnosti OCR pre čistý text. Pre väčšinu dokumentov postačuje čiernobiela alebo stupne šedej.
  • Udržujte stránky rovno: Naklonené alebo skosené stránky mätú softvér OCR. Väčšina moderných nástrojov dokáže automaticky vyrovnať, ale začať rovno pomáha.
  • Vyhnite sa škvrnám od kávy a odtlačkom: Fyzické nečistoty na dokumente sa chybne čítajú ako znaky. Ak je to možné, vyčistite originál.
  • Skontrolujte výstup: OCR nie je 100% presné. Vždy skontrolujte výsledok, najmä pre čísla, interpunkciu a ručne písané časti.

Po OCR: zmenšite veľkosť súboru, ak je to potrebné

Spracovanie OCR môže niekedy zvýšiť veľkosť súboru PDF, pretože pridáva skrytú textovú vrstvu na vrchol existujúcej obrazovej vrstvy. Ak je výsledný súbor príliš veľký, použite náš kompresor PDF na zmenšenie veľkosti bez straty vizuálnej kvality.

Čo ak OCR nerozpozná text správne?

Presnosť OCR závisí od kvality pôvodného skenu. Slabé výsledky sú bežné pri: veľmi malých písmach (pod 8 bodov), ručnom písme, dekoratívnych alebo neobvyklých písmach, vyblednutom atramente alebo nekvalitných skenoch pod 200 DPI. V týchto prípadoch môže byť potrebné ručné prepísanie - alebo opätovné skenovanie pôvodného dokumentu vo vyššej kvalite pred ďalším spustením OCR.

Časté otázky

Prečo text v mojom PDF nie je vyberateľný?
Váš PDF je naskenovaný obrázok, nie dokument s vloženou textovou vrstvou. Keď je papierový dokument naskenovaný a uložený ako PDF, výsledok je v podstate fotografia stránky - pixely v tvare písmen, ale nie skutočný text. Aby ste ho mohli vyberať, musíte spustiť OCR (Optical Character Recognition) na pridanie textovej vrstvy.
Existuje bezplatný spôsob, ako urobiť text naskenovaného PDF vyberateľným?
Áno - Google Drive ponúka bezplatné OCR: nahrajte PDF, kliknite naň pravým tlačidlom myši a otvorte ho v Google Docs. Google automaticky rozpozná text. Alternatívne môžete použiť náš konvertor PDF do Wordu, ktorý extrahuje obsah do upraviteľného dokumentu. Pre úplne bezplatné desktopové riešenie je Tesseract OCR open-source a veľmi výkonný.
Zmení OCR vzhľad PDF?
Nie - OCR pridáva neviditeľnú textovú vrstvu za existujúci obrázok. Vizuálny vzhľad PDF zostáva úplne rovnaký. Získate iba možnosť vyberať, kopírovať a vyhľadávať text. Jedinou výnimkou je konverzia do Wordu a opätovný export, kde môžu nastať drobné zmeny formátovania.
Aká presná je OCR na naskenovaných dokumentoch?
Moderné OCR je 95–99 % presné na čistých, dobre naskenovaných dokumentoch pri 300 DPI alebo viac. Presnosť výrazne klesá pri skenoch s nízkym rozlíšením, ručnom písme, neobvyklých písmach alebo stránkach s fyzickým poškodením. Vždy skontrolujte výstup pred tým, ako ho použijete pre dôležité dokumenty.
Môžem pomocou OCR urobiť text ručne písaného PDF vyberateľným?
Štandardné OCR funguje na ručné písmo zle - je navrhnuté pre tlačený, písaný text. Existujú špecializované nástroje na rozpoznávanie ručného písma, ale sú oveľa menej presné ako OCR pre tlačený text. Ak dokument obsahuje kombináciu tlačeného a ručného písma, OCR správne rozpozná tlačené časti, ale ručne písané časti pravdepodobne prečíta chybne.

Súvisiace články