OpenPDFTools

Teksti i PDF-it të skanuar nuk mund të zgjidhet - Si ta rregulloni me OCR

Martin PavličPërditësuar më 8 prill 20266 minuta lexim
Shpërndaje
Teksti i PDF-it të skanuar nuk mund të zgjidhet - Si ta rregulloni me OCR

Pse nuk mund të zgjidhni tekst në një PDF të skanuar?

Kur një dokument skanohet fizikisht dhe ruhet si PDF, skaneri kap një imazh të sheshtë të faqes - njëlloj si të nxirrni një foto. Skedari që rezulton nuk përmban asnjë karakter teksti të vërtetë, vetëm pikselë të rregulluar për të dukur si shkronja. Kjo është arsyeja pse klikimi kudo në dokument nuk zgjedh asgjë: nuk ka shtresë teksti që kursori të kapë.

Ky është një nga shqetësimet më të zakonshme me PDF. Dokumenti duket i lexueshëm plotësisht në ekran, por në thelb është një fotografi e ngulitur në një mbështjellës PDF. Nuk mund ta kërkoni, të kopjoni prej tij, ose të lejoni një lexues ekrani ta interpretojë.

Çfarë është OCR dhe si e rregullon këtë problem?

OCR (Njohje Optike e Karaktereve) është një teknologji që analizon imazhin e tekstit dhe e konverton atë në karaktere të vërteta, të lexueshme nga makina. Softueri shikon format e shkronjave, i krahason me modele të njohura dhe prodhon një shtresë teksti që nguliset përsëri në PDF.

Pas përpunimit të OCR, Ju merrni një PDF të kërkueshëm dhe me tekst të zgjedhshëm - vizualisht identik me origjinalin, por tani kursori mund të theksojë fjalë, Ctrl+F mund të gjejë fraza dhe kopjimi-ngjitja funksionon normalisht. Edhe lexuesit e ekranit dhe mjetet e aksesibilitetit mund ta lexojnë.

Si të aplikoni OCR në një PDF të skanuar

Ka disa mënyra për të shtuar OCR në një PDF të skanuar, nga mjetet falas të shfletuesit deri te softueri i desktopit:

  • Konvertoni në Word, pastaj ruani si PDF: Konvertuesi ynë PDF në Word nxjerr përmbajtjen vizuale dhe e konverton në një dokument Word të redaktueshëm. Në Word, teksti është plotësisht i zgjedhshëm. Pastaj mund ta rieksportoni në PDF me një shtresë teksti të duhur.
  • Adobe Acrobat (me pagesë): Standardi i industrisë. Hapni PDF, shkoni te Mjete → Skanim dhe OCR → Njoh Tekst, dhe Acrobat shton një shtresë teksti direkt. E shtrenjtë por shumë e saktë.
  • Google Drive (falas): Ngarkoni PDF-in tuaj të skanuar në Google Drive, klikoni me të djathtën dhe zgjidhni "Hap me Google Docs". Google ekzekuton OCR automatikisht dhe hap tekstin në një dokument Docs. Funksionon befasisht mirë për skanim të pastër.
  • Tesseract OCR (falas, me kod të hapur): Një motor OCR i fuqishëm i linjës së komandës i përdorur nga shumë aplikacione. Më i mirë për zhvilluesit ose përdoruesit teknikë që duan një zgjidhje falas të vetë-hostuar.
  • Adobe Acrobat online (falas me kufizime): Adobe ofron përpunim të kufizuar falas të OCR përmes mjeteve të tyre online për përdoruesit pa abonament.

Këshilla për saktësi më të mirë të OCR

Cilësia e OCR varet shumë nga cilësia e skanimit origjinal. Ndiqni këto këshilla për të maksimizuar saktësinë:

  • Skanoni në 300 DPI ose më lartë: Skanimet me rezolucion të ulët prodhojnë karaktere të paqarta që motorët OCR i lexojnë gabim. 300 DPI është minimumi; 600 DPI është ideal për tekst të vogël ose dokumente të detajuara.
  • Përdorni zezë dhe bardhë për dokumentet me tekst: Skanimet me ngjyra rrisin madhësinë e skedarit pa përmirësuar saktësinë e OCR për tekst të thjeshtë. Zezë dhe bardhë ose gri mjafton për shumicën e dokumenteve.
  • Mbajini faqet drejt: Faqet e pjerrëta ose të skeduara ngatërrojnë softuerin OCR. Shumica e mjeteve moderne mund të rregullojnë automatikisht, por fillimi drejt ndihmon.
  • Shmangni njollat e kafesë dhe njollat: Shenjat fizike në dokument lexohen gabimisht si karaktere. Pastroni origjinalin nëse është e mundur.
  • Kontrolloni rezultatin: OCR nuk është 100% i saktë. Gjithmonë rishikoni rezultatin, veçanërisht për numra, pikësim dhe seksione të shkruara me dorë.

Pas OCR: zvogëloni madhësinë e skedarit nëse nevojitet

Përpunimi OCR ndonjëherë mund të rrisë madhësinë e skedarit PDF sepse shton një shtresë teksti të fshehur mbi shtresën ekzistuese të imazhit. Nëse skedari që rezulton është shumë i madh, përdorni kompresorin tonë PDF për të zvogëluar madhësinë pa humbur cilësinë vizuale.

Çfarë nëse OCR nuk njeh saktë tekstin?

Saktësia e OCR varet nga cilësia e skanimit origjinal. Rezultate të dobëta janë të zakonshme me: fontet shumë të vogla (nën 8pt), tekst të shkruar me dorë, fonte dekorative ose të pazakonta, bojë të zbehur, ose skanim me cilësi të ulët nën 200 DPI. Në këto raste, ritipizimi manual mund të jetë i nevojshëm - ose riskanimi i dokumentit origjinal me cilësi më të lartë para ekzekutimit të OCR-it përsëri.

Pyetjet e shpeshta

Pse teksti në PDF-in tim nuk mund të zgjidhet?
PDF-i juaj është një imazh i skanuar, jo një dokument me shtresë teksti të ngulitur. Kur një dokument letre skanohet dhe ruhet si PDF, rezultati është në thelb një fotografi e faqes - pikselë në formën e shkronjave, por jo tekst i vërtetë. Për ta bërë të zgjedhshëm, duhet të ekzekutoni OCR për të shtuar një shtresë teksti.
A ka ndonjë mënyrë falas për të bërë tekstin e PDF-it të skanuar të zgjedhshëm?
Po - Google Drive ofron OCR falas: ngarkoni PDF-in, klikoni me të djathtën dhe hapeni me Google Docs. Google njeh automatikisht tekstin. Alternativ, konvertuesi ynë PDF në Word nxjerr përmbajtjen në një dokument të redaktueshëm. Për një zgjidhje plotësisht falas desktopi, Tesseract OCR është me kod të hapur dhe shumë i fuqishëm.
A ndryshon OCR pamjen e PDF-it?
Jo - OCR shton një shtresë teksti të padukshme pas imazhit ekzistues. Pamja vizuale e PDF mbetet saktësisht e njëjtë. Ju thjesht fitoni aftësinë për të zgjedhur, kopjuar dhe kërkuar tekstin. Përjashtimi i vetëm është nëse konvertoni në Word dhe rieksportoni, ku mund të ndodhin ndryshime të vogla të formatimit.
Sa i saktë është OCR në dokumentet e skanuara?
OCR modern është 95-99% i saktë në dokumente të pastra, të skanuara mirë në 300 DPI ose më lartë. Saktësia bie ndjeshëm për skanim me rezolucion të ulët, shkrim me dorë, fonte të pazakonta, ose faqe me dëmtime fizike. Gjithmonë rishikoni rezultatin para se të mbështeteni tek ai për dokumente të rëndësishme.
A mund të bëj tekstin e shkruar me dorë të PDF-it të zgjedhshëm me OCR?
OCR standard funksionon keq me shkrim me dorë - është projektuar për tekst të printuar, të shtypur. Ekzistojnë mjete të specializuara të njohjes së shkrimit me dorë por janë shumë më pak të sakta se OCR-i i tekstit të printuar. Nëse dokumenti ka tekst të përzier të printuar dhe me dorë, OCR do të njohë saktë pjesët e printuara por ka gjasa t’i lexojë gabimisht seksionet e shkruara me dorë.

Artikuj të ngjashëm