Text naskenovaného PDF nie je vyberateľný - ako to opraviť pomocou OCR

Prečo nemôžete vybrať text v naskenovanom PDF?
Keď je dokument fyzicky naskenovaný a uložený ako PDF, skener zachytí plochý obrázok stránky - podobne ako keď odfotíte. Výsledný súbor neobsahuje žiadne skutočné textové znaky, iba pixely usporiadané tak, aby vyzerali ako písmená. Preto kliknutie kdekoľvek v dokumente nič nevyberie: váš kurzor nemá žiadnu textovú vrstvu, ktorú by mohol zachytiť.
Toto je jeden z najčastejších problémov s PDF. Dokument vyzerá na obrazovke dokonale čitateľne, ale je to v podstate fotografia vložená do PDF obálky. Nemôžete ho prehľadávať, kopírovať z neho, ani ho nechať prečítať programom na čítanie obrazovky.
Čo je OCR a ako to opravuje?
OCR (Optical Character Recognition) je technológia, ktorá analyzuje obrázok textu a prevádza ho na skutočné, strojovo čitateľné znaky. Softvér sa pozrie na tvary písmen, porovná ich so známymi vzormi a vytvorí textovú vrstvu, ktorá sa vloží späť do PDF.
Po spracovaní pomocou OCR získate prehľadávateľný, vyberateľný PDF - vizuálne identický s originálom, ale teraz môže váš kurzor zvýrazňovať slová, Ctrl+F dokáže nájsť frázy a kopírovanie a vkladanie funguje normálne. Môžu ho čítať aj programy na čítanie obrazovky a nástroje prístupnosti.
Ako aplikovať OCR na naskenovaný PDF
Existuje niekoľko spôsobov, ako pridať OCR do naskenovaného PDF, od bezplatných nástrojov v prehliadači až po desktopový softvér:
- Konvertovať do Wordu, potom uložiť ako PDF: Náš konvertor PDF do Wordu extrahuje vizuálny obsah a prevádza ho na upraviteľný dokument Word. Po otvorení vo Worde je text plne vyberateľný. Môžete ho potom znovu exportovať do PDF so správnou textovou vrstvou.
- Adobe Acrobat (platený): Priemyselný štandard. Otvorte PDF, prejdite na Nástroje → Skenovanie & OCR → Rozpoznať text a Acrobat pridá textovú vrstvu priamo. Drahý, ale veľmi presný.
- Google Drive (zadarmo): Nahrajte naskenovaný PDF do Google Drive, kliknite naň pravým tlačidlom myši a vyberte "Otvoriť v Google Docs." Google automaticky spustí OCR a otvorí text v dokumente Docs. Funguje prekvapivo dobre pre čisté skeny.
- Tesseract OCR (zadarmo, open-source): Výkonný príkazový riadok OCR engine používaný mnohými aplikáciami. Najlepší pre vývojárov alebo technicky zdatných používateľov, ktorí chcú bezplatné riešenie na vlastnom serveri.
- Adobe Acrobat online (obmedzene zadarmo): Adobe ponúka obmedzené bezplatné spracovanie OCR cez svoje online nástroje pre používateľov bez predplatného.
Tipy pre lepšiu presnosť OCR
Kvalita OCR výrazne závisí od kvality pôvodného skenu. Dodržiavajte tieto tipy, aby ste maximalizovali presnosť:
- Skenujte pri 300 DPI alebo viac: Skeny s nižším rozlíšením produkujú rozmazané znaky, ktoré OCR engine chybne číta. 300 DPI je minimum; 600 DPI je ideálne pre malý text alebo podrobné dokumenty.
- Používajte čiernobiele pre textové dokumenty: Farebné skeny zvyšujú veľkosť súboru bez zlepšenia presnosti OCR pre čistý text. Pre väčšinu dokumentov postačuje čiernobiela alebo stupne šedej.
- Udržujte stránky rovno: Naklonené alebo skosené stránky mätú softvér OCR. Väčšina moderných nástrojov dokáže automaticky vyrovnať, ale začať rovno pomáha.
- Vyhnite sa škvrnám od kávy a odtlačkom: Fyzické nečistoty na dokumente sa chybne čítajú ako znaky. Ak je to možné, vyčistite originál.
- Skontrolujte výstup: OCR nie je 100% presné. Vždy skontrolujte výsledok, najmä pre čísla, interpunkciu a ručne písané časti.
Po OCR: zmenšite veľkosť súboru, ak je to potrebné
Spracovanie OCR môže niekedy zvýšiť veľkosť súboru PDF, pretože pridáva skrytú textovú vrstvu na vrchol existujúcej obrazovej vrstvy. Ak je výsledný súbor príliš veľký, použite náš kompresor PDF na zmenšenie veľkosti bez straty vizuálnej kvality.
Čo ak OCR nerozpozná text správne?
Presnosť OCR závisí od kvality pôvodného skenu. Slabé výsledky sú bežné pri: veľmi malých písmach (pod 8 bodov), ručnom písme, dekoratívnych alebo neobvyklých písmach, vyblednutom atramente alebo nekvalitných skenoch pod 200 DPI. V týchto prípadoch môže byť potrebné ručné prepísanie - alebo opätovné skenovanie pôvodného dokumentu vo vyššej kvalite pred ďalším spustením OCR.
Časté otázky
Prečo text v mojom PDF nie je vyberateľný?▾
Existuje bezplatný spôsob, ako urobiť text naskenovaného PDF vyberateľným?▾
Zmení OCR vzhľad PDF?▾
Aká presná je OCR na naskenovaných dokumentoch?▾
Môžem pomocou OCR urobiť text ručne písaného PDF vyberateľným?▾
Súvisiace články
V PDF chýbajú vložené fonty? Oprav zlé zobrazenie textu v 7 krokoch
Ak PDF na inom zariadení vyzerá inak, najčastejšie chýbajú vložené fonty. Tu je rýchla diagnostika a oprava. ✅
6 min čítaniaRozmazaný PDF po kompresii? 7 spôsobov, ako zachovať kvalitu (2026)
Skomprimovali ste PDF a text alebo obrázky sú zrazu rozmazané? Pozrite si, prečo kvalita padá a ako zmenšiť súbor bez straty čitateľnosti. ✅
6 min čítaniaNejde otvoriť PDF v mobile? 6 rýchlych riešení (iPhone & Android)
Nedarí sa vám otvoriť PDF súbor v iPhone alebo Androide? Zistite, prečo sa zobrazuje prázdna obrazovka a ako PDF zobraziť bez inštalácie zbytočných aplikácií. ✅
5 min čítania