OpenPDFTools

Tekst skeniranog PDF-a nije moguće označiti - kako to popraviti pomoću OCR-a

Martin PavličAžurirano 8. travnja 2026.6 min čitanja
Podijeli
Tekst skeniranog PDF-a nije moguće označiti - kako to popraviti pomoću OCR-a

Zašto ne možete odabrati tekst u skeniranom PDF-u?

Kada se dokument fizički skenira i spremi kao PDF, skener snima ravnu sliku stranice - slično kao fotografiranje. Nastala datoteka ne sadrži stvarne tekstualne znakove, samo piksele raspoređene da izgledaju kao slova. Zato klik bilo gdje u dokumentu ništa ne odabire: vaš kursor nema tekstni sloj koji bi mogao uhvatiti.

Ovo je jedan od najčešćih problema s PDF-om. Dokument na ekranu izgleda savršeno čitljivo, ali je u biti fotografija umetnuta u PDF omotnicu. Ne možete ga pretraživati, kopirati iz njega niti dopustiti čitaču ekrana da ga obradi.

Što je OCR i kako to popravlja?

OCR (Optical Character Recognition) je tehnologija koja analizira sliku teksta i pretvara je u stvarne, strojno čitljive znakove. Softver gleda oblike slova, uspoređuje ih s poznatim uzorcima i stvara tekstni sloj koji se ugrađuje natrag u PDF.

Nakon OCR obrade dobivate pretraživ, odabireći PDF - vizualno identičan originalu, ali sada vaš kursor može označavati riječi, Ctrl+F može pronalaziti fraze, a kopiranje i lijepljenje radi normalno. Čitači ekrana i alati za pristupačnost također ga mogu čitati.

Kako primijeniti OCR na skenirani PDF

Postoji nekoliko načina dodavanja OCR-a skeniranom PDF-u, od besplatnih alata u pregledniku do desktop softvera:

  • Pretvorba u Word, zatim spremanje kao PDF: Naš pretvarač PDF u Word ekstrahira vizualni sadržaj i pretvara ga u uređivani Word dokument. Nakon otvaranja u Wordu, tekst je u potpunosti odabir. Zatim ga možete ponovo izvesti u PDF s ispravnim tekstnim slojem.
  • Adobe Acrobat (plaćeni): Industrijski standard. Otvorite PDF, idite na Alati → Skeniranje & OCR → Prepoznaj tekst i Acrobat izravno dodaje tekstni sloj. Skupo, ali vrlo precizno.
  • Google Drive (besplatno): Prenesite skenirani PDF na Google Drive, desnom tipkom kliknite na njega i odaberite "Otvori s Google Docs." Google automatski pokreće OCR i otvara tekst u Docs dokumentu. Iznenađujuće dobro funkcionira za čiste skenove.
  • Tesseract OCR (besplatno, open-source): Moćan OCR engine naredbenog retka koji koriste mnoge aplikacije. Najbolji za programere ili tehničke korisnike koji žele besplatno samohostovano rješenje.
  • Adobe Acrobat online (ograničeno besplatno): Adobe nudi ograničenu besplatnu OCR obradu putem svojih online alata za korisnike bez pretplate.

Savjeti za bolju točnost OCR-a

Kvaliteta OCR-a uvelike ovisi o kvaliteti originalnog skena. Slijedite ove savjete za maksimalnu točnost:

  • Skenirajte pri 300 DPI ili više: Skenovi niže rezolucije proizvode zamagljene znakove koje OCR engine pogrešno čita. 300 DPI je minimum; 600 DPI je idealno za mali tekst ili detaljne dokumente.
  • Koristite crno-bijelo za tekstualne dokumente: Skenovi u boji povećavaju veličinu datoteke bez poboljšanja točnosti OCR-a za običan tekst. Crno-bijelo ili nijanse sive dovoljno je za većinu dokumenata.
  • Držite stranice ravno: Nagnute ili iskrivljene stranice zbunjuju OCR softver. Većina modernih alata može automatski ispraviti, ali početak ravnog pomaže.
  • Izbjegavajte mrlje od kave i tragove: Fizičke mrlje na dokumentu pogrešno se čitaju kao znakovi. Ako je moguće, očistite original.
  • Provjerite izlaz: OCR nije 100% točan. Uvijek pregledajte rezultat, posebno za brojeve, interpunkciju i rukom pisane dijelove.

Nakon OCR-a: smanjite veličinu datoteke ako je potrebno

OCR obrada ponekad može povećati veličinu PDF datoteke jer dodaje skriveni tekstni sloj na vrh postojećeg slikovnog sloja. Ako je rezultirajuća datoteka prevelika, koristite naš PDF kompresor za smanjenje veličine bez gubitka vizualne kvalitete.

Što ako OCR ne prepoznaje tekst ispravno?

Točnost OCR-a ovisi o kvaliteti originalnog skena. Loši rezultati su uobičajeni s: vrlo malim fontovima (ispod 8 pt), rukom pisanim tekstom, dekorativnim ili neobičnim fontovima, izblijedjelim tintom ili skenovima niske kvalitete ispod 200 DPI. U tim slučajevima može biti potrebno ručno prepisivanje - ili ponovo skeniranje originalnog dokumenta u višoj kvaliteti prije ponovnog pokretanja OCR-a.

Često postavljana pitanja

Zašto tekst u mom PDF-u nije moguće označiti?
Vaš PDF je skenirana slika, a ne dokument s ugrađenim tekstnim slojem. Kada se papirnati dokument skenira i spremi kao PDF, rezultat je u biti fotografija stranice - pikseli u obliku slova, ali ne stvarni tekst. Da biste ga mogli odabirati, morate pokrenuti OCR (Optical Character Recognition) za dodavanje tekstnog sloja.
Postoji li besplatan način da se tekst skeniranog PDF-a može odabrati?
Da - Google Drive nudi besplatni OCR: prenesite PDF, desnom tipkom kliknite na njega i otvorite s Google Docs. Google automatski prepoznaje tekst. Alternativno, naš pretvarač PDF u Word ekstrahira sadržaj u uređivani dokument. Za potpuno besplatno desktop rješenje, Tesseract OCR je open-source i vrlo moćan.
Mijenja li OCR izgled PDF-a?
Ne - OCR dodaje nevidljivi tekstni sloj iza postojeće slike. Vizualni izgled PDF-a ostaje potpuno isti. Dobivate samo mogućnost odabira, kopiranja i pretraživanja teksta. Jedina iznimka je ako konvertujete u Word i ponovo izvezete, gdje mogu nastati manje promjene formatiranja.
Koliko je OCR precizan na skeniranim dokumentima?
Moderni OCR je 95–99% precizan na čistim, dobro skeniranim dokumentima pri 300 DPI ili više. Točnost značajno opada za skenove niske rezolucije, rukopis, neobične fontove ili stranice s fizičkim oštećenjima. Uvijek pregledajte izlaz prije oslanjanja na njega za važne dokumente.
Mogu li OCR-om učiniti tekst rukom pisanog PDF-a odabranim?
Standardni OCR loše funkcionira s rukopisom - dizajniran je za tiskani, tipkani tekst. Postoje specijalizirani alati za prepoznavanje rukopisa, ali su daleko manje točni od OCR-a za tiskani tekst. Ako dokument sadrži kombinaciju tiskanog i rukom pisanog teksta, OCR će ispravno prepoznati tiskane dijelove, ali će vjerojatno pogrešno pročitati rukom pisane dijelove.

Povezani članci