OpenPDFTools

Tekst skeniranog PDF-a nije moguće označiti - kako to popraviti pomoću OCR-a

Martin PavličАжурирано 8. април 2026.6 мин читања
Подели
Tekst skeniranog PDF-a nije moguće označiti - kako to popraviti pomoću OCR-a

Zašto ne možete izabrati tekst u skeniranom PDF-u?

Kada se dokument fizički skenira i sačuva kao PDF, skener snima ravnu sliku stranice - slično kao fotografisanje. Nastala datoteka ne sadrži stvarne tekstualne znakove, samo piksele raspoređene da izgledaju kao slova. Zato klik bilo gde u dokumentu ništa ne bira: vaš kursor nema tekstni sloj koji bi mogao da uhvati.

Ovo je jedan od najčešćih problema sa PDF-om. Dokument na ekranu izgleda savršeno čitljivo, ali je u suštini fotografija umetnuta u PDF omotnicu. Ne možete ga pretraživati, kopirati iz njega niti dozvoliti čitaču ekrana da ga obradi.

Šta je OCR i kako to popravlja?

OCR (Optical Character Recognition) je tehnologija koja analizira sliku teksta i pretvara je u stvarne, mašinski čitljive znakove. Softver gleda oblike slova, upoređuje ih sa poznatim uzorcima i stvara tekstni sloj koji se ugrađuje nazad u PDF.

Nakon OCR obrade dobijate pretraživ, odabir PDF - vizuelno identičan originalu, ali sada vaš kursor može označavati reči, Ctrl+F može pronalaziti fraze, a kopiranje i lepljenje radi normalno. Čitači ekrana i alati za pristupačnost takođe ga mogu čitati.

Kako primeniti OCR na skeniran PDF

Postoji nekoliko načina dodavanja OCR-a skeniranom PDF-u, od besplatnih alata u pregledaču do desktop softvera:

  • Konverzija u Word, zatim čuvanje kao PDF: Naš pretvarač PDF u Word ekstrahira vizuelni sadržaj i pretvara ga u uređivani Word dokument. Nakon otvaranja u Wordu, tekst je u potpunosti odabir. Zatim ga možete ponovo izvesti u PDF sa ispravnim tekstnim slojem.
  • Adobe Acrobat (plaćeni): Industrijski standard. Otvorite PDF, idite na Alati → Skeniranje & OCR → Prepoznaj tekst i Acrobat direktno dodaje tekstni sloj. Skupo, ali veoma precizno.
  • Google Drive (besplatno): Prenesite skenirani PDF na Google Drive, desnim klikom kliknite na njega i odaberite "Otvori sa Google Docs." Google automatski pokreće OCR i otvara tekst u Docs dokumentu. Iznenađujuće dobro funkcioniše za čiste skenove.
  • Tesseract OCR (besplatno, open-source): Moćan OCR engine komandne linije koji koriste mnoge aplikacije. Najbolji za programere ili tehničke korisnike koji žele besplatno samohostovano rešenje.
  • Adobe Acrobat online (ograničeno besplatno): Adobe nudi ograničenu besplatnu OCR obradu putem svojih online alata za korisnike bez pretplate.

Saveti za bolju tačnost OCR-a

Kvalitet OCR-a u velikoj meri zavisi od kvaliteta originalnog skena. Sledite ove savete za maksimalnu tačnost:

  • Skenirajte pri 300 DPI ili više: Skenovi niže rezolucije proizvode zamagljene znakove koje OCR engine pogrešno čita. 300 DPI je minimum; 600 DPI je idealno za mali tekst ili detaljne dokumente.
  • Koristite crno-belo za tekstualne dokumente: Skenovi u boji povećavaju veličinu datoteke bez poboljšanja tačnosti OCR-a za običan tekst. Crno-belo ili nijanse sive dovoljno je za većinu dokumenata.
  • Držite stranice ravno: Nagnute ili iskrivljene stranice zbunjuju OCR softver. Većina modernih alata može automatski ispraviti, ali početak ravnog pomaže.
  • Izbegavajte mrlje od kafe i tragove: Fizičke mrlje na dokumentu pogrešno se čitaju kao znakovi. Ako je moguće, očistite original.
  • Proverite izlaz: OCR nije 100% tačan. Uvek pregledajte rezultat, posebno za brojeve, interpunkciju i rukom pisane delove.

Nakon OCR-a: smanjite veličinu datoteke ako je potrebno

OCR obrada ponekad može povećati veličinu PDF datoteke jer dodaje skriveni tekstni sloj na vrh postojećeg slikovnog sloja. Ako je rezultujuća datoteka prevelika, koristite naš PDF kompresor za smanjenje veličine bez gubitka vizuelnog kvaliteta.

Šta ako OCR ne prepoznaje tekst ispravno?

Tačnost OCR-a zavisi od kvaliteta originalnog skena. Loši rezultati su uobičajeni sa: veoma malim fontovima (ispod 8 pt), rukom pisanim tekstom, dekorativnim ili neobičnim fontovima, izbledjelom tintom ili skenovima niskog kvaliteta ispod 200 DPI. U tim slučajevima može biti potrebno ručno prepisivanje - ili ponovo skeniranje originalnog dokumenta u višem kvalitetu pre ponovnog pokretanja OCR-a.

Честа питања

Zašto tekst u mom PDF-u nije moguće označiti?
Vaš PDF je skenirana slika, a ne dokument sa ugrađenim tekstnim slojem. Kada se papirni dokument skenira i sačuva kao PDF, rezultat je u suštini fotografija stranice - pikseli u obliku slova, ali ne stvarni tekst. Da biste ga mogli birati, morate pokrenuti OCR (Optical Character Recognition) za dodavanje tekstnog sloja.
Postoji li besplatan način da se tekst skeniranog PDF-a može odabrati?
Da - Google Drive nudi besplatni OCR: prenesite PDF, desnim klikom kliknite na njega i otvorite sa Google Docs. Google automatski prepoznaje tekst. Alternativno, naš pretvarač PDF u Word ekstrahira sadržaj u uređivani dokument. Za potpuno besplatno desktop rešenje, Tesseract OCR je open-source i veoma moćan.
Da li OCR menja izgled PDF-a?
Ne - OCR dodaje nevidljivi tekstni sloj iza postojeće slike. Vizuelni izgled PDF-a ostaje potpuno isti. Dobijate samo mogućnost biranja, kopiranja i pretrage teksta. Jedini izuzetak je ako konvertujete u Word i ponovo izvezete, gde mogu nastati manje promene formatiranja.
Koliko je OCR precizan na skeniranim dokumentima?
Moderni OCR je 95–99% precizan na čistim, dobro skeniranim dokumentima pri 300 DPI ili više. Tačnost značajno opada za skenove niske rezolucije, rukopis, neobične fontove ili stranice sa fizičkim oštećenjima. Uvek pregledajte izlaz pre oslanjanja na njega za važne dokumente.
Mogu li OCR-om učiniti tekst rukom pisanog PDF-a odabranim?
Standardni OCR loše funkcioniše sa rukopisom - dizajniran je za štampani, kucani tekst. Postoje specijalizovani alati za prepoznavanje rukopisa, ali su daleko manje tačni od OCR-a za štampani tekst. Ako dokument sadrži kombinaciju štampanog i rukom pisanog teksta, OCR će ispravno prepoznati štampane delove, ali će verovatno pogrešno pročitati rukom pisane delove.

Повезани чланци