OpenPDFTools

Maandishi ya PDF Iliyoscaniwa Hayawezi Kuchaguliwa - Jinsi ya Kuirekebisha kwa OCR

Martin PavličIliyosasishwa6 dakika za kusoma
Shiriki
Maandishi ya PDF Iliyoscaniwa Hayawezi Kuchaguliwa - Jinsi ya Kuirekebisha kwa OCR

Kwa nini huwezi kuchagua maandishi kwenye PDF iliyoscaniwa?

Wakati hati inapigwa picha kimwili na kuhifadhiwa kama PDF, skana inachukua picha tambarare ya ukurasa - kama kupiga picha tu. Faili inayotokana haina wahusika wa maandishi halisi, bali pikseli zilizopangwa kuonekana kama herufi. Ndiyo maana kubonyeza popote kwenye hati haichagui chochote: hakuna safu ya maandishi kwa kishale chako kushika.

Hii ni moja ya matatizo ya kawaida ya PDF. Hati inaonekana kusomeka vizuri kwenye skrini, lakini kwa kiasi kikubwa ni picha iliyowekwa ndani ya kifurushi cha PDF. Huwezi kuitafuta, kunakili kutoka kwake, au kuruhusu kisomaji cha skrini kiichanganue.

OCR ni nini na inaisaidiaje?

OCR (Optical Character Recognition) ni teknolojia inayochanganua picha ya maandishi na kuibadilisha kuwa wahusika halisi wanaoweza kusomwa na mashine. Programu inaangalia maumbo ya herufi, inazilinganisha na mifumo inayojulikana, na kutoa safu ya maandishi inayowekwa tena ndani ya PDF.

Baada ya usindikaji wa OCR, unapata PDF inayoweza kutafutwa na kuchaguliwa - inayofanana kimwili na asili, lakini sasa kishale chako kinaweza kuonyesha maneno, Ctrl+F inaweza kutafuta misemo, na nakili-bandike inafanya kazi kawaida. Visomaji vya skrini na zana za ufikiaji navyo vinaweza kuisoma.

Jinsi ya kutumia OCR kwenye PDF iliyoscaniwa

Kuna njia kadhaa za kuongeza OCR kwenye PDF iliyoscaniwa, kuanzia zana za bure za kivinjari hadi programu za kompyuta:

  • Badilisha kuwa Word, kisha hifadhi kama PDF: Kibadilishaji chetu cha PDF hadi Word huchomoa maudhui ya kuona na kuibadilisha kuwa hati ya Word inayoweza kuhaririwa. Mara inapoingia Word, maandishi yanaweza kuchaguliwa kikamilifu. Unaweza kisha kuisafirisha tena kwa PDF yenye safu sahihi ya maandishi.
  • Adobe Acrobat (inayolipwa): Zana ya kawaida ya tasnia. Fungua PDF, nenda Tools → Scan & OCR → Recognize Text, na Acrobat inaongeza safu ya maandishi moja kwa moja. Ni ghali lakini sahihi sana.
  • Google Drive (bure): Pakia PDF yako iliyoscaniwa kwenye Google Drive, ibonyeze kulia, na uchague "Open with Google Docs." Google inaendesha OCR kiotomatiki na kufungua maandishi kwenye hati ya Docs. Inafanya kazi vizuri sana kwa skana safi.
  • Tesseract OCR (bure, chanzo wazi): Injini ya OCR ya mstari wa amri yenye nguvu inayotumiwa na programu nyingi. Bora kwa wasanidi programu au watumiaji wa kiufundi wanaotaka suluhisho la bure la kujitegemea.
  • Adobe Acrobat mtandaoni (bure kwa kiasi): Adobe inatoa usindikaji wa OCR wa bure kwa kiasi kupitia zana zao za mtandaoni kwa watumiaji wasio na usajili.

Vidokezo vya usahihi bora wa OCR

Ubora wa OCR unategemea sana ubora wa skana ya awali. Fuata vidokezo hivi ili kuongeza usahihi:

  • Skana kwa 300 DPI au zaidi: Skana za azimio la chini hutoa wahusika wasio wazi ambao injini za OCR zinasoma vibaya. 300 DPI ni kiwango cha chini; 600 DPI ni bora kwa maandishi madogo au hati zenye maelezo mengi.
  • Tumia nyeusi-na-nyeupe kwa hati za maandishi: Skana za rangi zinaongeza ukubwa wa faili bila kuboresha usahihi wa OCR kwa maandishi ya kawaida. Nyeusi-na-nyeupe au kijijivu kinatosha kwa hati nyingi.
  • Shika kurasa zikiwa sawa: Kurasa zilizoinamia au kupinda zinachanganya programu ya OCR. Zana nyingi za kisasa zinaweza kuzirekebisha kiotomatiki, lakini kuanza sawa kunasaidia.
  • Epuka madoa ya kahawa na uchafu: Alama za kimwili kwenye hati zinasomwa vibaya kama wahusika. Safisha asili ikiwezekana.
  • Angalia matokeo: OCR si sahihi 100%. Daima soma kwa makini matokeo, hasa kwa nambari, alama za uakifishaji, na sehemu zilizoandikwa kwa mkono.

Baada ya OCR: punguza ukubwa wa faili ikihitajika

Usindikaji wa OCR wakati mwingine unaweza kuongeza ukubwa wa faili ya PDF kwa sababu inaongeza safu ya maandishi iliyofichwa juu ya safu ya picha iliyopo. Kama faili inayotokana ni kubwa sana, tumia kibana chetu cha PDF kupunguza ukubwa bila kupoteza ubora wa kuona.

Je, ikitokea OCR haijui maandishi vizuri?

Usahihi wa OCR unategemea ubora wa skana ya awali. Matokeo mabaya ni ya kawaida na: fonti ndogo sana (chini ya 8pt), maandishi ya mkono, fonti za mapambo au zisizo za kawaida, wino uliofifia, au skana za ubora wa chini chini ya 200 DPI. Katika hali hizi, kuandika upya kwa mkono kunaweza kuwa muhimu - au kurekebisha skana ya hati ya asili kwa ubora wa juu zaidi kabla ya kuendesha OCR tena.

Swali Mara Nyingi

Kwa nini maandishi katika PDF yangu hayawezi kuchaguliwa?
PDF yako ni picha iliyoscaniwa, si hati yenye safu ya maandishi iliyowekwa ndani. Wakati hati ya karatasi inascaniwa na kuhifadhiwa kama PDF, matokeo ni picha ya ukurasa - pikseli zenye maumbo ya herufi, lakini si maandishi halisi. Ili kuyafanya yaweze kuchaguliwa, unahitaji kuendesha OCR (Optical Character Recognition) ili kuongeza safu ya maandishi.
Je, kuna njia ya bure ya kufanya maandishi ya PDF iliyoscaniwa yaweze kuchaguliwa?
Ndiyo - Google Drive inatoa OCR ya bure: pakia PDF, ibonyeze kulia, na ifungue na Google Docs. Google inajua maandishi kiotomatiki. Kwa njia mbadala, kibadilishaji chetu cha PDF hadi Word huchomoa maudhui kuwa hati inayoweza kuhaririwa. Kwa suluhisho la bure la kompyuta, Tesseract OCR ni chanzo wazi na chenye nguvu sana.
OCR hubadilisha jinsi PDF inavyoonekana?
Hapana - OCR inaongeza safu isiyoonekana ya maandishi nyuma ya picha iliyopo. Muonekano wa kuona wa PDF unabaki sawa kabisa. Unachopata tu ni uwezo wa kuchagua, kunakili, na kutafuta maandishi. Ubaguzi pekee ni kama unabadilisha kuwa Word na kusafirisha tena, ambapo mabadiliko madogo ya muundo yanaweza kutokea.
OCR ina usahihi gani kwenye hati zilizoscaniwa?
OCR ya kisasa ina usahihi wa 95-99% kwenye hati safi, zilizoscaniwa vizuri kwa 300 DPI au zaidi. Usahihi hupungua sana kwa skana za azimio la chini, maandishi ya mkono, fonti zisizo za kawaida, au kurasa zenye uharibifu wa kimwili. Daima soma kwa makini matokeo kabla ya kuitegemea kwa hati muhimu.
Naweza kufanya maandishi ya PDF iliyoandikwa kwa mkono yaweze kuchaguliwa kwa OCR?
OCR ya kawaida haifanyi kazi vizuri kwa maandishi ya mkono - imeundwa kwa maandishi ya kuchapwa na kuandika kwa mashine. Zana maalum za utambuzi wa maandishi ya mkono zipo lakini si sahihi sana kuliko OCR ya maandishi ya kuchapwa. Kama hati ina mchanganyiko wa kuchapwa na maandishi ya mkono, OCR itajua sehemu zilizochapwa vizuri lakini itasoma vibaya sehemu za maandishi ya mkono.

Makala Yanayolingana