OpenPDFTools

Nuskaityto PDF tekstas nesirenkamas - kaip tai išspręsti naudojant OCR

Martin PavličAtnaujinta 2026 m. balandžio 8 d.6 min. skaitymo
Dalintis
Nuskaityto PDF tekstas nesirenkamas - kaip tai išspręsti naudojant OCR

Kodėl negalite pasirinkti teksto nuskaitytame PDF?

Kai dokumentas yra fiziškai nuskaitomas ir išsaugomas kaip PDF, skaitytuvas užfiksuoja plokščią puslapio vaizdą - kaip nuotrauką. Gautas failas neturi jokių tikrų teksto simbolių, tik pikselius, išdėstytus taip, kad primintų raides. Todėl spustelėjus bet kur dokumente niekas nesirenkama: nėra teksto sluoksnio, kurį galėtų pagauti kursorius.

Tai viena dažniausių PDF problemų. Dokumentas ekrane atrodo puikiai skaitomas, tačiau iš esmės yra fotografija, įterpta į PDF apvalkalą. Jūs negalite jo ieškoti, kopijuoti iš jo ar leisti ekrano skaitytuvui jį apdoroti.

Kas yra OCR ir kaip jis tai ištaiso?

OCR (optinis simbolių atpažinimas) yra technologija, analizuojanti teksto vaizdą ir konvertuojanti jį į tikrus, mašinai skaitomus simbolius. Programinė įranga nagrinėja raidžių formas, lygina jas su žinomais šablonais ir sukuria teksto sluoksnį, kuris įterpiamas atgal į PDF.

Po OCR apdorojimo Jūs gaunate PDF, kuriame galima ieškoti ir pasirinkti tekstą - vizualiai identišką originalui, tačiau dabar kursorius gali paryškinti žodžius, Ctrl+F gali rasti frazes, o kopijavimas ir įklijavimas veikia normaliai. Ekrano skaitytojai ir prieinamumo įrankiai taip pat gali jį perskaityti.

Kaip pritaikyti OCR nuskaitytam PDF

Yra keli būdai pridėti OCR prie nuskaityto PDF - nuo nemokamų naršyklės įrankių iki darbalaukio programinės įrangos:

  • Konvertuoti į Word, tada išsaugoti kaip PDF: Mūsų PDF į Word konverteris ištraukia vizualinį turinį ir konvertuoja jį į redaguojamą Word dokumentą. Word programoje tekstas yra visiškai pasirenkamas. Tada galite eksportuoti atgal į PDF su tinkamu teksto sluoksniu.
  • Adobe Acrobat (mokamas): Pramonės standartas. Atidarykite PDF, eikite į Įrankiai → Nuskaitymas ir OCR → Atpažinti tekstą, ir Acrobat tiesiogiai prideda teksto sluoksnį. Brangus, bet labai tikslus.
  • Google Drive (nemokamas): Įkelkite nuskaitytą PDF į Google Drive, dešiniuoju mygtuku spustelėkite ir pasirinkite "Atidaryti su Google Docs". Google automatiškai paleidžia OCR ir atidaro tekstą Docs dokumente. Veikia stebėtinai gerai švariems nuskaitymams.
  • Tesseract OCR (nemokamas, atviro kodo): Galingas komandinės eilutės OCR variklis, naudojamas daugelio programų. Geriausias kūrėjams ar techninių žinių turintiems vartotojams, norintiems nemokamo savarankiškai prieglobos sprendimo.
  • Adobe Acrobat online (ribotai nemokamas): Adobe siūlo ribotą nemokamą OCR apdorojimą per savo internetinius įrankius prenumeratos neturintiems vartotojams.

Patarimai geresniam OCR tikslumui

OCR kokybė labai priklauso nuo originalaus nuskaitymo kokybės. Laikykitės šių patarimų, kad pasiektumėte maksimalų tikslumą:

  • Nuskaitykite 300 DPI arba didesne raiška: Mažos raiškos nuskaitymai sukuria neryškius simbolius, kuriuos OCR varikliai skaito neteisingai. 300 DPI yra minimumas; 600 DPI idealus smulkiam tekstui ar išsamesniems dokumentams.
  • Naudokite nespalvotą teksto dokumentams: Spalvoti nuskaitymai didina failo dydį, negerinant OCR tikslumo paprastam tekstui. Nespalvota ar pilkų atspalvių gama pakanka daugumai dokumentų.
  • Laikykite puslapius tiesiai: Pakreipti ar iškreipti puslapiai painioją OCR programinę įrangą. Daugelis šiuolaikinių įrankių gali automatiškai ištiesinti, tačiau pradžia tiesiai padeda.
  • Venkite kavos dėmių ir tepimų: Fiziniai ženklai ant dokumento klaidingai atpažįstami kaip simboliai. Jei įmanoma, išvalykite originalą.
  • Patikrinkite išvestį: OCR nėra 100% tikslus. Visada peržiūrėkite rezultatą, ypač skaičius, skyrybą ir ranka rašytus skyrius.

Po OCR: jei reikia, sumažinkite failo dydį

OCR apdorojimas kartais gali padidinti PDF failo dydį, nes prideda paslėptą teksto sluoksnį ant esamo vaizdo sluoksnio. Jei gautas failas per didelis, naudokite mūsų PDF glaudintuką, kad sumažintumėte dydį neprarandant vizualinės kokybės.

Ką daryti, jei OCR neteisingai atpažįsta tekstą?

OCR tikslumas priklauso nuo originalaus nuskaitymo kokybės. Prasti rezultatai dažni su: labai mažais šriftais (mažiau nei 8pt), ranka rašytu tekstu, dekoratyviniais ar neįprastais šriftais, išblukusiu rašalu arba žemos kokybės nuskaitymais žemiau 200 DPI. Tokiais atvejais gali prireikti rankinio perrašymo - arba originalaus dokumento pakartotinio nuskaitymo aukštesne kokybe prieš vėl paleidžiant OCR.

Dažni klausimai

Kodėl tekstas mano PDF nesirenkamas?
Jūsų PDF yra nuskaitytas vaizdas, o ne dokumentas su įterptų teksto sluoksniu. Kai popierinis dokumentas nuskaitomas ir išsaugomas kaip PDF, rezultatas iš esmės yra puslapio nuotrauka - pikseliai raidžių pavidalu, bet ne tikras tekstas. Norėdami jį padaryti pasirenkamą, turite paleisti OCR, kad pridėtumėte teksto sluoksnį.
Ar yra nemokamas būdas padaryti nuskaityto PDF tekstą pasirenkamu?
Taip - Google Drive siūlo nemokamą OCR: įkelkite PDF, dešiniuoju mygtuku spustelėkite ir atidarykite su Google Docs. Google automatiškai atpažįsta tekstą. Arba mūsų PDF į Word konverteris ištraukia turinį į redaguojamą dokumentą. Visiškai nemokamam darbalaukio sprendimui Tesseract OCR yra atviro kodo ir labai galingas.
Ar OCR keičia PDF išvaizdą?
Ne - OCR prideda nematomą teksto sluoksnį už esamo vaizdo. Vizualinė PDF išvaizda lieka visiškai tokia pati. Jūs tiesiog įgyjate galimybę pasirinkti, kopijuoti ir ieškoti teksto. Vienintelė išimtis - jei konvertuojate į Word ir vėl eksportuojate, kur gali atsirasti nedidelių formatavimo pakeitimų.
Koks yra OCR tikslumas nuskaitytuose dokumentuose?
Šiuolaikinis OCR yra 95-99% tikslus švaruose, gerai nuskaitytuose dokumentuose esant 300 DPI ar daugiau. Tikslumas gerokai krenta esant mažos raiškos nuskaitymams, ranka rašytam tekstui, neįprastiems šriftams ar puslapiams su fiziniu pažeidimu. Visada patikrinkite išvestį prieš naudodami ją svarbiems dokumentams.
Ar galima naudojant OCR padaryti ranka rašytą PDF tekstą pasirenkamu?
Standartinis OCR prastai veikia su rašysena - jis skirtas spausdintam, rašytam tekstui. Egzistuoja specializuoti rašysenos atpažinimo įrankiai, tačiau jie yra daug mažiau tikslūs nei spausdinto teksto OCR. Jei dokumente yra mišrus spausdintas ir ranka rašytas tekstas, OCR teisingai atpažins spausdinto dalį, tačiau tikriausiai neteisingai perskaitys ranka rašytus skyrius.

Susiję straipsniai