Nuskaityto PDF tekstas nesirenkamas - kaip tai išspręsti naudojant OCR

Kodėl negalite pasirinkti teksto nuskaitytame PDF?
Kai dokumentas yra fiziškai nuskaitomas ir išsaugomas kaip PDF, skaitytuvas užfiksuoja plokščią puslapio vaizdą - kaip nuotrauką. Gautas failas neturi jokių tikrų teksto simbolių, tik pikselius, išdėstytus taip, kad primintų raides. Todėl spustelėjus bet kur dokumente niekas nesirenkama: nėra teksto sluoksnio, kurį galėtų pagauti kursorius.
Tai viena dažniausių PDF problemų. Dokumentas ekrane atrodo puikiai skaitomas, tačiau iš esmės yra fotografija, įterpta į PDF apvalkalą. Jūs negalite jo ieškoti, kopijuoti iš jo ar leisti ekrano skaitytuvui jį apdoroti.
Kas yra OCR ir kaip jis tai ištaiso?
OCR (optinis simbolių atpažinimas) yra technologija, analizuojanti teksto vaizdą ir konvertuojanti jį į tikrus, mašinai skaitomus simbolius. Programinė įranga nagrinėja raidžių formas, lygina jas su žinomais šablonais ir sukuria teksto sluoksnį, kuris įterpiamas atgal į PDF.
Po OCR apdorojimo Jūs gaunate PDF, kuriame galima ieškoti ir pasirinkti tekstą - vizualiai identišką originalui, tačiau dabar kursorius gali paryškinti žodžius, Ctrl+F gali rasti frazes, o kopijavimas ir įklijavimas veikia normaliai. Ekrano skaitytojai ir prieinamumo įrankiai taip pat gali jį perskaityti.
Kaip pritaikyti OCR nuskaitytam PDF
Yra keli būdai pridėti OCR prie nuskaityto PDF - nuo nemokamų naršyklės įrankių iki darbalaukio programinės įrangos:
- Konvertuoti į Word, tada išsaugoti kaip PDF: Mūsų PDF į Word konverteris ištraukia vizualinį turinį ir konvertuoja jį į redaguojamą Word dokumentą. Word programoje tekstas yra visiškai pasirenkamas. Tada galite eksportuoti atgal į PDF su tinkamu teksto sluoksniu.
- Adobe Acrobat (mokamas): Pramonės standartas. Atidarykite PDF, eikite į Įrankiai → Nuskaitymas ir OCR → Atpažinti tekstą, ir Acrobat tiesiogiai prideda teksto sluoksnį. Brangus, bet labai tikslus.
- Google Drive (nemokamas): Įkelkite nuskaitytą PDF į Google Drive, dešiniuoju mygtuku spustelėkite ir pasirinkite "Atidaryti su Google Docs". Google automatiškai paleidžia OCR ir atidaro tekstą Docs dokumente. Veikia stebėtinai gerai švariems nuskaitymams.
- Tesseract OCR (nemokamas, atviro kodo): Galingas komandinės eilutės OCR variklis, naudojamas daugelio programų. Geriausias kūrėjams ar techninių žinių turintiems vartotojams, norintiems nemokamo savarankiškai prieglobos sprendimo.
- Adobe Acrobat online (ribotai nemokamas): Adobe siūlo ribotą nemokamą OCR apdorojimą per savo internetinius įrankius prenumeratos neturintiems vartotojams.
Patarimai geresniam OCR tikslumui
OCR kokybė labai priklauso nuo originalaus nuskaitymo kokybės. Laikykitės šių patarimų, kad pasiektumėte maksimalų tikslumą:
- Nuskaitykite 300 DPI arba didesne raiška: Mažos raiškos nuskaitymai sukuria neryškius simbolius, kuriuos OCR varikliai skaito neteisingai. 300 DPI yra minimumas; 600 DPI idealus smulkiam tekstui ar išsamesniems dokumentams.
- Naudokite nespalvotą teksto dokumentams: Spalvoti nuskaitymai didina failo dydį, negerinant OCR tikslumo paprastam tekstui. Nespalvota ar pilkų atspalvių gama pakanka daugumai dokumentų.
- Laikykite puslapius tiesiai: Pakreipti ar iškreipti puslapiai painioją OCR programinę įrangą. Daugelis šiuolaikinių įrankių gali automatiškai ištiesinti, tačiau pradžia tiesiai padeda.
- Venkite kavos dėmių ir tepimų: Fiziniai ženklai ant dokumento klaidingai atpažįstami kaip simboliai. Jei įmanoma, išvalykite originalą.
- Patikrinkite išvestį: OCR nėra 100% tikslus. Visada peržiūrėkite rezultatą, ypač skaičius, skyrybą ir ranka rašytus skyrius.
Po OCR: jei reikia, sumažinkite failo dydį
OCR apdorojimas kartais gali padidinti PDF failo dydį, nes prideda paslėptą teksto sluoksnį ant esamo vaizdo sluoksnio. Jei gautas failas per didelis, naudokite mūsų PDF glaudintuką, kad sumažintumėte dydį neprarandant vizualinės kokybės.
Ką daryti, jei OCR neteisingai atpažįsta tekstą?
OCR tikslumas priklauso nuo originalaus nuskaitymo kokybės. Prasti rezultatai dažni su: labai mažais šriftais (mažiau nei 8pt), ranka rašytu tekstu, dekoratyviniais ar neįprastais šriftais, išblukusiu rašalu arba žemos kokybės nuskaitymais žemiau 200 DPI. Tokiais atvejais gali prireikti rankinio perrašymo - arba originalaus dokumento pakartotinio nuskaitymo aukštesne kokybe prieš vėl paleidžiant OCR.
Dažni klausimai
Kodėl tekstas mano PDF nesirenkamas?▾
Ar yra nemokamas būdas padaryti nuskaityto PDF tekstą pasirenkamu?▾
Ar OCR keičia PDF išvaizdą?▾
Koks yra OCR tikslumas nuskaitytuose dokumentuose?▾
Ar galima naudojant OCR padaryti ranka rašytą PDF tekstą pasirenkamu?▾
Susiję straipsniai
Trūksta įterptųjų šriftų PDF? Ištaisykite netinkamą teksto vaizdą 7 veiksmais
Jei PDF tekstas kitame įrenginyje atrodo kitaip, dažniausiai priežastis yra trūkstamų įterptųjų šriftų. Štai kaip greitai diagnozuoti ir ištaisyti. ✅
6 min. skaitymoPo suspaudimo PDF tampa neryškus? 7 būdai išlaikyti kokybę (2026)
Suglaudinote PDF ir dabar tekstas arba vaizdai atrodo neryškūs? Sužinokite, kodėl prastėja kokybė ir kaip sumažinti failo dydį nepažeidžiant skaitomumo. ✅
6 min. skaitymoNegalite atidaryti PDF „iPhone“ ar „Android“? 6 momentiniai pataisymai (2026 m.)
Sunku atidaryti PDF failą „iPhone“ ar „Android“? Sužinokite, kodėl galite matyti tuščią ekraną ir kaip peržiūrėti dokumentus neįdiegę sunkių programų. ✅
5 min. skaitymo