OpenPDFTools

Skannatun PDF:n teksti ei ole valittavissa - Kuinka korjata se OCR:llä

Martin PavličPäivitetty 8. huhtikuuta 20266 min luku
Jaa
Skannatun PDF:n teksti ei ole valittavissa - Kuinka korjata se OCR:llä

Miksi et voi valita tekstiä skannatussa PDF:ssä?

Kun asiakirja skannataan fyysisesti ja tallennetaan PDF:nä, skanneri tallentaa sivun tasaisen kuvan - aivan kuin ottaisi valokuvan. Tuloksena oleva tiedosto ei sisällä varsinaisia tekstimerkkejä, vain pikseleitä, jotka näyttävät kirjaimilta. Siksi dokumentin mistä tahansa kohdasta napsauttaminen ei valitse mitään: ei ole tekstikerrosta, johon kursori voisi tarttua.

Tämä on yksi yleisimmistä PDF-ongelmista. Asiakirja näyttää täysin luettavalta näytöllä, mutta se on olennaisesti PDF-kuoreen upotettu valokuva. Et voi etsiä siitä, kopioida siitä tai antaa ruudunlukijan jäsentää sitä.

Mikä on OCR ja miten se korjaa tämän?

OCR (Optical Character Recognition) on teknologia, joka analysoi tekstin kuvan ja muuntaa sen todellisiksi, koneluettaviksi merkeiksi. Ohjelmisto tarkastelee kirjainten muotoja, vertaa niitä tunnettuihin kuvioihin ja tuottaa tekstikerroksen, joka upotetaan takaisin PDF:ään.

OCR-käsittelyn jälkeen saat haettavan, valittavan PDF:n - visuaalisesti identtisen alkuperäisen kanssa, mutta nyt kursori voi korostaa sanoja, Ctrl+F voi löytää fraaseja ja kopiointi-liittäminen toimii normaalisti. Ruudunlukijat ja esteettömyystyökalut voivat myös lukea sen.

Kuinka soveltaa OCR:ää skannattuun PDF:ään

On useita tapoja lisätä OCR skannattuun PDF:ään, ilmaisista selaintyökaluista työpöytäohjelmistoihin:

  • Muunna Wordiksi, sitten tallenna PDF:nä: PDF-Word-muuntimemme poimii visuaalisen sisällön ja muuntaa sen muokattavaksi Word-asiakirjaksi. Wordissä teksti on täysin valittavissa. Sen jälkeen voit viedä sen takaisin PDF:ksi asianmukaisella tekstikerroksella.
  • Adobe Acrobat (maksullinen): Alan vakiotyökalu. Avaa PDF, siirry kohtaan Työkalut → Skannaa & OCR → Tunnista teksti, ja Acrobat lisää tekstikerroksen suoraan. Kallis mutta erittäin tarkka.
  • Google Drive (ilmainen): Lataa skannattu PDF Google Driveen, napsauta sitä hiiren kakkospainikkeella ja valitse "Avaa Google Docsilla." Google suorittaa OCR:n automaattisesti ja avaa tekstin Docs-asiakirjassa. Toimii yllättävän hyvin puhtaille skannauksille.
  • Tesseract OCR (ilmainen, avoimen lähdekoodin): Tehokas komentorivi-OCR-moottori, jota monet sovellukset käyttävät. Paras kehittäjille tai teknisille käyttäjille, jotka haluavat ilmaisen itse isännöidyn ratkaisun.
  • Adobe Acrobat online (rajoitettu ilmainen): Adobe tarjoaa rajoitetun ilmaisen OCR-käsittelyn online-työkalujensa kautta käyttäjille ilman tilausta.

Vinkkejä parempaan OCR-tarkkuuteen

OCR:n laatu riippuu suuresti alkuperäisen skannauksen laadusta. Seuraa näitä vinkkejä tarkkuuden maksimoimiseksi:

  • Skannaa 300 DPI:llä tai korkeammalla: Pienemmän resoluution skannaukset tuottavat epäselviä merkkejä, jotka OCR-moottorit lukevat väärin. 300 DPI on minimi; 600 DPI on ihanteellinen pienelle tekstille tai yksityiskohtaisille asiakirjoille.
  • Käytä mustavalkoista tekstiasiakirjoille: Väriset skannaukset lisäävät tiedostokokoa ilman, että OCR-tarkkuus paranee pelkälle tekstille. Mustavalkoinen tai harmaasävy riittää useimmille asiakirjoille.
  • Pidä sivut suorina: Kaltevat tai vääristyneet sivut hämmentävät OCR-ohjelmistoa. Useimmat modernit työkalut voivat oikaista automaattisesti, mutta suoraan aloittaminen auttaa.
  • Vältä kahvitahroja ja naarmuuntumia: Asiakirjan fyysiset merkinnät luetaan väärin merkeiksi. Puhdista alkuperäinen mahdollisuuksien mukaan.
  • Tarkista tulos: OCR ei ole 100% tarkka. Tarkista tulos aina, erityisesti numeroiden, välimerkkien ja käsinkirjoitettujen osioiden osalta.

OCR:n jälkeen: pienennä tiedostokokoa tarvittaessa

OCR-käsittely voi joskus kasvattaa PDF-tiedoston kokoa, koska se lisää piilotetun tekstikerroksen olemassa olevan kuvakerroksen päälle. Jos tuloksena oleva tiedosto on liian suuri, käytä PDF-pakkaustyökaluamme koon pienentämiseen ilman visuaalisen laadun menettämistä.

Mitä tehdä, jos OCR ei tunnista tekstiä oikein?

OCR:n tarkkuus riippuu alkuperäisen skannauksen laadusta. Huonot tulokset ovat yleisiä näissä tapauksissa: erittäin pienet kirjasinkoot (alle 8 pt), käsinkirjoitettu teksti, koristeelliset tai epätavalliset kirjasintyypit, haalistunut muste tai alle 200 DPI:n huonolaatuiset skannaukset. Näissä tapauksissa manuaalinen uudelleenkirjoittaminen voi olla välttämätöntä - tai alkuperäisen asiakirjan uudelleenskannaaminen korkeammalla laadulla ennen OCR:n suorittamista uudelleen.

Usein kysytyt kysymykset

Miksi PDF:ni teksti ei ole valittavissa?
PDF:si on skannattu kuva, ei upotetulla tekstikerroksella varustettu asiakirja. Kun paperiasiakirja skannataan ja tallennetaan PDF:nä, tulos on olennaisesti valokuva sivusta - pikselit kirjainten muodossa, mutta ei varsinaista tekstiä. Jotta siitä saisi valittavan, sinun on suoritettava OCR (Optical Character Recognition) tekstikerroksen lisäämiseksi.
Onko ilmainen tapa tehdä skannatun PDF:n teksti valittavaksi?
Kyllä - Google Drive tarjoaa ilmaisen OCR:n: lataa PDF, napsauta sitä hiiren kakkospainikkeella ja avaa Google Docsilla. Google tunnistaa tekstin automaattisesti. Vaihtoehtoisesti PDF-Word-muuntimemme poimii sisällön muokattavaan asiakirjaan. Täysin ilmaiseksi työpöytäratkaisuksi Tesseract OCR on avoimen lähdekoodin ja erittäin tehokas.
Muuttaako OCR PDF:n ulkonäköä?
Ei - OCR lisää näkymättömän tekstikerroksen olemassa olevan kuvan taakse. PDF:n visuaalinen ulkonäkö pysyy täsmälleen samana. Saat vain mahdollisuuden valita, kopioida ja etsiä tekstiä. Ainoa poikkeus on, jos muunnat Wordiin ja viet takaisin, jolloin pieniä muotoilumuutoksia saattaa ilmetä.
Kuinka tarkka OCR on skannatuissa asiakirjoissa?
Moderni OCR on 95-99% tarkka puhtaissa, hyvin skannatuissa asiakirjoissa 300 DPI:llä tai korkeammalla. Tarkkuus laskee merkittävästi pieniresolituisissa skannauksissa, käsialakirjoituksessa, epätavallisissa kirjasintyypeissä tai fyysisesti vaurioituneilla sivuilla. Tarkista aina tulos ennen kuin luotat siihen tärkeissä asiakirjoissa.
Voinko tehdä käsinkirjoitetun PDF:n tekstistä valittavan OCR:llä?
Normaali OCR toimii huonosti käsinkirjoituksessa - se on suunniteltu painetulle, kirjoitettavalle tekstille. Erikoistuneet käsialan tunnistustyökalut ovat olemassa, mutta ne ovat huomattavasti vähemmän tarkkoja kuin painetun tekstin OCR. Jos asiakirjassa on sekoitus tulostettua ja käsinkirjoitettua, OCR tunnistaa painetut osat oikein, mutta todennäköisesti lukee käsinkirjoitetut osat väärin.

Aiheeseen liittyvät artikkelit