OpenPDFTools

Hindi Mapipili ang Teksto sa Scanned na PDF - Paano Ayusin Gamit ang OCR

Martin PavličAktualizované Abril 8, 20266 min čítania
Zdieľať
Hindi Mapipili ang Teksto sa Scanned na PDF - Paano Ayusin Gamit ang OCR

Bakit hindi mapipili ang teksto sa scanned na PDF?

Kapag ang dokumento ay physically na-scan at na-save bilang PDF, kinukuha ng scanner ang flat na larawan ng pahina - katulad ng pagkuha ng litrato. Ang resultang file ay walang naglalaman na aktwal na mga character ng teksto, mga pixel lamang na nakaayos upang magmukhang mga titik. Kaya naman kahit saan ka mag-click sa dokumento ay walang napipili: walang text layer para mahawakan ng cursor.

Ito ay isa sa pinakakaraniwang frustrasyon sa PDF. Ang dokumento ay mukhang ganap na nababasa sa screen, ngunit sa esensya ay isang larawan na naka-embed sa PDF wrapper. Hindi mo ito mahahanap, makokopya, o mababasa ng screen reader.

Ano ang OCR at paano nito naayos ito?

OCR (Optical Character Recognition) ay isang teknolohiya na nag-aanalisa ng larawan ng teksto at kino-convert ito sa aktwal, machine-readable na mga character. Tinitingnan ng software ang mga hugis ng titik, inihahambing sa mga kilalang pattern, at naglalabas ng text layer na naka-embed pabalik sa PDF.

Pagkatapos ng OCR processing, makukuha mo ang isang searchable, selectable na PDF - visually na kapareho ng orihinal, ngunit ngayon ay maaari nang i-highlight ng cursor ang mga salita, mahahanap ng Ctrl+F ang mga parirala, at normal na gumagana ang copy-paste. Mababasa din ito ng screen reader at accessibility tools.

Paano mag-apply ng OCR sa scanned na PDF

Mayroong ilang paraan upang magdagdag ng OCR sa scanned na PDF, mula sa libreng browser tools hanggang sa desktop software:

  • I-convert sa Word, pagkatapos i-save bilang PDF: Ang aming PDF to Word converter ay nag-e-extract ng visual na nilalaman at kino-convert ito sa editable na Word document. Sa Word, ang teksto ay ganap na mapipili. Pagkatapos ay maaari mo na itong i-re-export sa PDF na may wastong text layer.
  • Adobe Acrobat (bayad): Ang standard na tool sa industriya. Buksan ang PDF, pumunta sa Tools → Scan & OCR → Recognize Text, at ang Acrobat ay direktang nagdadagdag ng text layer. Mahal ngunit lubhang tumpak.
  • Google Drive (libre): I-upload ang scanned na PDF sa Google Drive, i-right-click ito, at piliin ang "Buksan gamit ang Google Docs." Awtomatikong nagpapatakbo ng OCR ang Google at binubuksan ang teksto sa Docs document. Nakakagulat na gumagana nang maayos para sa malinaw na mga scan.
  • Tesseract OCR (libre, open-source): Isang makapangyarihang command-line OCR engine na ginagamit ng maraming app. Pinakamainam para sa mga developer o technical na user na nagnanais ng libreng self-hosted na solusyon.
  • Adobe Acrobat online (limitadong libre): Nag-aalok ang Adobe ng limitadong libreng OCR processing sa pamamagitan ng kanilang mga online na tool para sa mga user na walang subscription.

Mga tip para sa mas mahusay na katumpakan ng OCR

Ang kalidad ng OCR ay lubos na nakasalalay sa kalidad ng orihinal na scan. Sundin ang mga tip na ito upang ma-maximize ang katumpakan:

  • Mag-scan sa 300 DPI o mas mataas: Ang mga scan na may mababang resolution ay gumagawa ng malabong mga character na maling nababasa ng mga OCR engine. Ang 300 DPI ang minimum; ang 600 DPI ay ideal para sa maliliit na teksto o detalyadong mga dokumento.
  • Gumamit ng black-and-white para sa mga text document: Ang mga color scan ay nagdadagdag ng laki ng file nang hindi pinapabuti ang katumpakan ng OCR para sa simpleng teksto. Ang black-and-white o grayscale ay sapat na para sa karamihan ng mga dokumento.
  • Panatilihing tuwid ang mga pahina: Ang mga pahina na nakiling o nakahilig ay nakakalito sa OCR software. Karamihan sa mga modernong tool ay kayang awtomatikong i-deskew, ngunit ang magsimula nang tuwid ay nakakatulong.
  • Iwasan ang mga tasa ng kape at mantsa: Ang mga pisikal na marka sa dokumento ay maling nababasa bilang mga character. Linisin ang orihinal kung maaari.
  • Suriin ang output: Ang OCR ay hindi 100% tumpak. Palaging i-proofread ang resulta, lalo na para sa mga numero, bantas, at mga handwritten na seksyon.

Pagkatapos ng OCR: bawasan ang laki ng file kung kinakailangan

Ang OCR processing ay maaaring minsan ay magpataas ng laki ng PDF file dahil nagdadagdag ito ng nakatagong text layer sa ibabaw ng umiiral na image layer. Kung ang resultang file ay masyadong malaki, gamitin ang aming PDF compressor upang mabawasan ang laki nang hindi nawawala ang visual na kalidad.

Paano kung hindi maayos na natutukoy ng OCR ang teksto?

Ang katumpakan ng OCR ay nakasalalay sa kalidad ng orihinal na scan. Ang mahinang mga resulta ay karaniwan sa: napakaliit na mga font (sa ibaba ng 8pt), handwritten na teksto, dekoratibo o hindi karaniwang mga font, kupas na tinta, o mababang kalidad na mga scan sa ibaba ng 200 DPI. Sa mga kasong ito, maaaring kailanganin ang manu-manong pag-type ulit - o ang muling pag-scan ng orihinal na dokumento sa mas mataas na kalidad bago muling patakbuhin ang OCR.

Mga Madalas Itanong

Bakit hindi mapipili ang teksto sa aking PDF?
Ang iyong PDF ay isang scanned na larawan, hindi isang dokumento na may embedded text layer. Kapag ang papel na dokumento ay na-scan at na-save bilang PDF, ang resulta ay karaniwang larawan ng pahina - mga pixel na hugis-titik, ngunit hindi aktwal na teksto. Upang ito ay mapili, kailangan mong magpatakbo ng OCR (Optical Character Recognition) upang magdagdag ng text layer.
Mayroon bang libreng paraan upang gawing mapipili ang teksto sa scanned na PDF?
Oo - nag-aalok ang Google Drive ng libreng OCR: i-upload ang PDF, i-right-click ito, at buksan gamit ang Google Docs. Awtomatikong nakikilala ng Google ang teksto. Bilang alternatibo, ang aming PDF to Word converter ay nag-e-extract ng nilalaman sa isang editable na dokumento. Para sa ganap na libreng desktop na solusyon, ang Tesseract OCR ay open-source at napaka-makapangyarihan.
Binabago ba ng OCR ang hitsura ng PDF?
Hindi - nagdadagdag ang OCR ng invisible text layer sa likod ng umiiral na larawan. Ang visual na hitsura ng PDF ay nananatiling eksaktong kapareho. Makukuha mo lamang ang kakayahang pumili, kumopya, at maghanap ng teksto. Ang tanging pagbubukod ay kapag nag-convert ka sa Word at nag-re-export, kung saan maaaring may mga maliit na pagbabago sa formatting.
Gaano katumpak ang OCR sa mga scanned na dokumento?
Ang modernong OCR ay may 95-99% na katumpakan sa mga malinis, maayos na scanned na dokumento sa 300 DPI o mas mataas. Ang katumpakan ay kapansin-pansing bumababa para sa mga mababang resolusyon na scan, sulat-kamay, hindi karaniwang mga font, o mga pahina na may pisikal na pinsala. Palaging i-proofread ang output bago umasa rito para sa mahahalagang dokumento.
Maaari ko bang gawing mapipili ang handwritten na teksto sa PDF gamit ang OCR?
Ang standard OCR ay mahina sa sulat-kamay - ito ay dinisenyo para sa naka-print, naka-type na teksto. Ang mga espesyal na handwriting recognition tool ay umiiral ngunit mas mababa ang katumpakan kaysa sa printed-text OCR. Kung ang dokumento ay may halong print at sulat-kamay, ang OCR ay maayos na makikilala ang mga naka-print na bahagi ngunit malamang na maling mababasa ang mga handwritten na seksyon.

Súvisiace články