Hindi Mapipili ang Teksto sa Scanned na PDF - Paano Ayusin Gamit ang OCR

Bakit hindi mapipili ang teksto sa scanned na PDF?
Kapag ang dokumento ay physically na-scan at na-save bilang PDF, kinukuha ng scanner ang flat na larawan ng pahina - katulad ng pagkuha ng litrato. Ang resultang file ay walang naglalaman na aktwal na mga character ng teksto, mga pixel lamang na nakaayos upang magmukhang mga titik. Kaya naman kahit saan ka mag-click sa dokumento ay walang napipili: walang text layer para mahawakan ng cursor.
Ito ay isa sa pinakakaraniwang frustrasyon sa PDF. Ang dokumento ay mukhang ganap na nababasa sa screen, ngunit sa esensya ay isang larawan na naka-embed sa PDF wrapper. Hindi mo ito mahahanap, makokopya, o mababasa ng screen reader.
Ano ang OCR at paano nito naayos ito?
OCR (Optical Character Recognition) ay isang teknolohiya na nag-aanalisa ng larawan ng teksto at kino-convert ito sa aktwal, machine-readable na mga character. Tinitingnan ng software ang mga hugis ng titik, inihahambing sa mga kilalang pattern, at naglalabas ng text layer na naka-embed pabalik sa PDF.
Pagkatapos ng OCR processing, makukuha mo ang isang searchable, selectable na PDF - visually na kapareho ng orihinal, ngunit ngayon ay maaari nang i-highlight ng cursor ang mga salita, mahahanap ng Ctrl+F ang mga parirala, at normal na gumagana ang copy-paste. Mababasa din ito ng screen reader at accessibility tools.
Paano mag-apply ng OCR sa scanned na PDF
Mayroong ilang paraan upang magdagdag ng OCR sa scanned na PDF, mula sa libreng browser tools hanggang sa desktop software:
- I-convert sa Word, pagkatapos i-save bilang PDF: Ang aming PDF to Word converter ay nag-e-extract ng visual na nilalaman at kino-convert ito sa editable na Word document. Sa Word, ang teksto ay ganap na mapipili. Pagkatapos ay maaari mo na itong i-re-export sa PDF na may wastong text layer.
- Adobe Acrobat (bayad): Ang standard na tool sa industriya. Buksan ang PDF, pumunta sa Tools → Scan & OCR → Recognize Text, at ang Acrobat ay direktang nagdadagdag ng text layer. Mahal ngunit lubhang tumpak.
- Google Drive (libre): I-upload ang scanned na PDF sa Google Drive, i-right-click ito, at piliin ang "Buksan gamit ang Google Docs." Awtomatikong nagpapatakbo ng OCR ang Google at binubuksan ang teksto sa Docs document. Nakakagulat na gumagana nang maayos para sa malinaw na mga scan.
- Tesseract OCR (libre, open-source): Isang makapangyarihang command-line OCR engine na ginagamit ng maraming app. Pinakamainam para sa mga developer o technical na user na nagnanais ng libreng self-hosted na solusyon.
- Adobe Acrobat online (limitadong libre): Nag-aalok ang Adobe ng limitadong libreng OCR processing sa pamamagitan ng kanilang mga online na tool para sa mga user na walang subscription.
Mga tip para sa mas mahusay na katumpakan ng OCR
Ang kalidad ng OCR ay lubos na nakasalalay sa kalidad ng orihinal na scan. Sundin ang mga tip na ito upang ma-maximize ang katumpakan:
- Mag-scan sa 300 DPI o mas mataas: Ang mga scan na may mababang resolution ay gumagawa ng malabong mga character na maling nababasa ng mga OCR engine. Ang 300 DPI ang minimum; ang 600 DPI ay ideal para sa maliliit na teksto o detalyadong mga dokumento.
- Gumamit ng black-and-white para sa mga text document: Ang mga color scan ay nagdadagdag ng laki ng file nang hindi pinapabuti ang katumpakan ng OCR para sa simpleng teksto. Ang black-and-white o grayscale ay sapat na para sa karamihan ng mga dokumento.
- Panatilihing tuwid ang mga pahina: Ang mga pahina na nakiling o nakahilig ay nakakalito sa OCR software. Karamihan sa mga modernong tool ay kayang awtomatikong i-deskew, ngunit ang magsimula nang tuwid ay nakakatulong.
- Iwasan ang mga tasa ng kape at mantsa: Ang mga pisikal na marka sa dokumento ay maling nababasa bilang mga character. Linisin ang orihinal kung maaari.
- Suriin ang output: Ang OCR ay hindi 100% tumpak. Palaging i-proofread ang resulta, lalo na para sa mga numero, bantas, at mga handwritten na seksyon.
Pagkatapos ng OCR: bawasan ang laki ng file kung kinakailangan
Ang OCR processing ay maaaring minsan ay magpataas ng laki ng PDF file dahil nagdadagdag ito ng nakatagong text layer sa ibabaw ng umiiral na image layer. Kung ang resultang file ay masyadong malaki, gamitin ang aming PDF compressor upang mabawasan ang laki nang hindi nawawala ang visual na kalidad.
Paano kung hindi maayos na natutukoy ng OCR ang teksto?
Ang katumpakan ng OCR ay nakasalalay sa kalidad ng orihinal na scan. Ang mahinang mga resulta ay karaniwan sa: napakaliit na mga font (sa ibaba ng 8pt), handwritten na teksto, dekoratibo o hindi karaniwang mga font, kupas na tinta, o mababang kalidad na mga scan sa ibaba ng 200 DPI. Sa mga kasong ito, maaaring kailanganin ang manu-manong pag-type ulit - o ang muling pag-scan ng orihinal na dokumento sa mas mataas na kalidad bago muling patakbuhin ang OCR.
Mga Madalas Itanong
Bakit hindi mapipili ang teksto sa aking PDF?▾
Mayroon bang libreng paraan upang gawing mapipili ang teksto sa scanned na PDF?▾
Binabago ba ng OCR ang hitsura ng PDF?▾
Gaano katumpak ang OCR sa mga scanned na dokumento?▾
Maaari ko bang gawing mapipili ang handwritten na teksto sa PDF gamit ang OCR?▾
Súvisiace články
Nawawala ang Mga Naka-embed na Font sa PDF? Ayusin ang Maling Pagpapakita ng Teksto sa 7 Hakbang
Kung iba ang hitsura ng iyong PDF text sa isa pang device, ang mga nawawalang naka-embed na font ang kadalasang dahilan. Narito kung paano i-diagnose at ayusin ito nang mabilis. ✅
6 min čítaniaNagiging Malabo ang PDF Pagkatapos ng Compression? 7 Paraan para Panatilihin ang Kalidad (2026)
Nag-compress ng PDF at ngayon ay mukhang malabo ang text o mga larawan? Matutunan nang eksakto kung bakit bumababa ang kalidad at kung paano bawasan ang laki ng file nang hindi sinisira ang pagiging madaling mabasa. ✅
6 min čítaniaHindi Mabuksan ang PDF sa iPhone o Android? 6 Instant na Pag-aayos (2026)
Nahihirapang magbukas ng PDF file sa iyong iPhone o Android? Alamin kung bakit maaari kang makakita ng blangkong screen at kung paano tingnan ang iyong mga dokumento nang hindi nag-i-install ng mabibigat na app. ✅
5 min čítania