OpenPDFTools

Text naskenovaného PDF nelze označit - jak to opravit pomocí OCR

Martin PavličAktualizováno 8. dubna 20266 min čtení
Sdílet
Text naskenovaného PDF nelze označit - jak to opravit pomocí OCR

Proč nemůžete vybrat text v naskenovaném PDF?

Když je dokument fyzicky naskenován a uložen jako PDF, skener zachytí plochý obrázek stránky - podobně jako při focení. Výsledný soubor neobsahuje žádné skutečné textové znaky, pouze pixely uspořádané tak, aby vypadaly jako písmena. Proto kliknutí kdekoli v dokumentu nic nevybere: váš kurzor nemá žádnou textovou vrstvu, kterou by mohl zachytit.

To je jeden z nejčastějších problémů s PDF. Dokument vypadá na obrazovce dokonale čitelně, ale je to v podstatě fotografie vložená do PDF obálky. Nemůžete jej prohledávat, kopírovat z něj ani ho nechat přečíst programem pro čtení obrazovky.

Co je OCR a jak to opravuje?

OCR (Optical Character Recognition) je technologie, která analyzuje obrázek textu a převádí ho na skutečné, strojově čitelné znaky. Software se podívá na tvary písmen, porovná je se známými vzory a vytvoří textovou vrstvu, která se vloží zpět do PDF.

Po zpracování pomocí OCR získáte prohledávatelný, označitelný PDF - vizuálně identický s originálem, ale nyní může váš kurzor zvýrazňovat slova, Ctrl+F dokáže najít fráze a kopírování a vkládání funguje normálně. Mohou ho číst i programy pro čtení obrazovky a nástroje přístupnosti.

Jak aplikovat OCR na naskenovaný PDF

Existuje několik způsobů, jak přidat OCR do naskenovaného PDF, od bezplatných nástrojů v prohlížeči až po desktopový software:

  • Převést do Wordu, pak uložit jako PDF: Náš převodník PDF do Wordu extrahuje vizuální obsah a převádí ho na upravitelný dokument Word. Po otevření ve Wordu je text plně označitelný. Poté ho můžete znovu exportovat do PDF se správnou textovou vrstvou.
  • Adobe Acrobat (placený): Průmyslový standard. Otevřete PDF, přejděte na Nástroje → Skenování & OCR → Rozpoznat text a Acrobat přidá textovou vrstvu přímo. Drahý, ale velmi přesný.
  • Google Drive (zdarma): Nahrajte naskenovaný PDF do Google Drive, klikněte na něj pravým tlačítkem myši a vyberte "Otevřít v Google Docs." Google automaticky spustí OCR a otevře text v dokumentu Docs. Funguje překvapivě dobře pro čisté skeny.
  • Tesseract OCR (zdarma, open-source): Výkonný příkazový řádek OCR engine používaný mnoha aplikacemi. Nejlepší pro vývojáře nebo technicky zdatné uživatele, kteří chtějí bezplatné řešení na vlastním serveru.
  • Adobe Acrobat online (omezeně zdarma): Adobe nabízí omezené bezplatné zpracování OCR přes své online nástroje pro uživatele bez předplatného.

Tipy pro lepší přesnost OCR

Kvalita OCR výrazně závisí na kvalitě původního skenu. Dodržujte tyto tipy, abyste maximalizovali přesnost:

  • Skenujte při 300 DPI nebo více: Skeny s nižším rozlišením produkují rozmazané znaky, které OCR engine chybně čte. 300 DPI je minimum; 600 DPI je ideální pro malý text nebo podrobné dokumenty.
  • Používejte černobílé pro textové dokumenty: Barevné skeny zvyšují velikost souboru bez zlepšení přesnosti OCR pro čistý text. Pro většinu dokumentů postačuje černobílé nebo stupně šedé.
  • Udržujte stránky rovně: Nakloněné nebo zkosené stránky mate software OCR. Většina moderních nástrojů dokáže automaticky vyrovnat, ale začít rovně pomáhá.
  • Vyhněte se skvrnám od kávy a otisky: Fyzické nečistoty na dokumentu se chybně čtou jako znaky. Pokud je to možné, vyčistěte originál.
  • Zkontrolujte výstup: OCR není 100% přesné. Vždy zkontrolujte výsledek, zejména pro čísla, interpunkci a ručně psané části.

Po OCR: zmenšete velikost souboru, pokud je to potřeba

Zpracování OCR může někdy zvýšit velikost souboru PDF, protože přidává skrytou textovou vrstvu na vrchol existující obrazové vrstvy. Pokud je výsledný soubor příliš velký, použijte náš kompresor PDF ke zmenšení velikosti bez ztráty vizuální kvality.

Co když OCR nerozpozná text správně?

Přesnost OCR závisí na kvalitě původního skenu. Slabé výsledky jsou běžné při: velmi malých písmech (pod 8 bodů), ručním písmu, dekorativních nebo neobvyklých písmech, vybledlém inkoustu nebo nekvalitních skenech pod 200 DPI. V těchto případech může být potřeba ruční přepsání - nebo opětovné skenování původního dokumentu ve vyšší kvalitě před dalším spuštěním OCR.

Často kladené otázky

Proč text v mém PDF nelze označit?
Váš PDF je naskenovaný obrázek, nikoli dokument s vloženou textovou vrstvou. Když je papírový dokument naskenován a uložen jako PDF, výsledek je v podstatě fotografie stránky - pixely ve tvaru písmen, ale ne skutečný text. Aby bylo možné ho označit, musíte spustit OCR (Optical Character Recognition) pro přidání textové vrstvy.
Existuje bezplatný způsob, jak udělat text naskenovaného PDF označitelným?
Ano - Google Drive nabízí bezplatné OCR: nahrajte PDF, klikněte na něj pravým tlačítkem myši a otevřete v Google Docs. Google automaticky rozpozná text. Alternativně můžete použít náš převodník PDF do Wordu, který extrahuje obsah do upravitelného dokumentu. Pro zcela bezplatné desktopové řešení je Tesseract OCR open-source a velmi výkonný.
Změní OCR vzhled PDF?
Ne - OCR přidává neviditelnou textovou vrstvu za existující obrázek. Vizuální vzhled PDF zůstává úplně stejný. Získáte pouze možnost označovat, kopírovat a vyhledávat text. Jedinou výjimkou je převod do Wordu a opětovný export, kde mohou nastat drobné změny formátování.
Jak přesné je OCR na naskenovaných dokumentech?
Moderní OCR je 95–99 % přesné na čistých, dobře naskenovaných dokumentech při 300 DPI nebo více. Přesnost výrazně klesá při skenech s nízkým rozlišením, ručním písmu, neobvyklých písmech nebo stránkách s fyzickým poškozením. Vždy zkontrolujte výstup před tím, než ho použijete pro důležité dokumenty.
Mohu pomocí OCR udělat text ručně psaného PDF označitelným?
Standardní OCR funguje na ruční písmo špatně - je navrženo pro tištěný, psaný text. Existují specializované nástroje pro rozpoznávání ručního písma, ale jsou mnohem méně přesné než OCR pro tištěný text. Pokud dokument obsahuje kombinaci tištěného a ručního písma, OCR správně rozpozná tištěné části, ale ručně psané části pravděpodobně přečte chybně.

Související články