OpenPDFTools

El text d'un PDF escanejat no es pot seleccionar - Com solucionar-ho amb OCR

Martin PavličActualizado 8 d’abril del 20266 min de lectura
Compartir
El text d'un PDF escanejat no es pot seleccionar - Com solucionar-ho amb OCR

Per què no pot seleccionar text en un PDF escanejat?

Quan un document s’escaneja físicament i es desa com a PDF, l’escàner captura una imatge plana de la pàgina, com si fes una foto. L’arxiu resultant no conté cap caràcter de text real, només píxels disposats per semblar lletres. Per això, fer clic en qualsevol punt del document no selecciona res: no hi ha cap capa de text que el cursor pugui agafar.

Aquesta és una de les frustracions més habituals amb els PDF. El document sembla perfectament llegible a la pantalla, però és essencialment una fotografia incrustada en un contenidor PDF. No és possible cercar-hi, copiar-ne res ni deixar que un lector de pantalla l’interpreti.

Què és OCR i com ho soluciona?

OCR (Reconeixement Òptic de Caràcters) és una tecnologia que analitza la imatge del text i la converteix en caràcters reals llegibles per les màquines. El programari examina les formes de les lletres, les compara amb patrons coneguts i genera una capa de text que es reintegra al PDF.

Després del processament OCR, s’obté un PDF cercable amb text seleccionable, visualment idèntic a l’original, però ara el cursor pot ressaltar paraules, Ctrl+F pot trobar frases i copiar i enganxar funciona normalment. Els lectors de pantalla i les eines d’accessibilitat també el poden llegir.

Com aplicar OCR a un PDF escanejat

Hi ha diverses maneres d’afegir OCR a un PDF escanejat, des d’eines gratuïtes al navegador fins a programari d’escriptori:

  • Convertir a Word i després desar com a PDF: El nostre convertidor de PDF a Word extreu el contingut visual i el converteix en un document Word editable. Un cop a Word, el text és completament seleccionable. Després podeu reexportar-lo a PDF amb una capa de text adequada.
  • Adobe Acrobat (de pagament): L’eina estàndard del sector. Obriu el PDF, aneu a Eines → Escanejar i OCR → Reconèixer text, i Acrobat afegeix una capa de text directament. És costosa, però molt precisa.
  • Google Drive (gratuït): Pugeu el vostre PDF escanejat a Google Drive, feu clic dret i trieu "Obre amb Google Docs." Google executa OCR automàticament i obre el text en un document Docs. Funciona sorprenentment bé per a escaneigs nets.
  • Tesseract OCR (gratuït, codi obert): Un potent motor OCR de línia d’ordres usat per moltes aplicacions. Ideal per a desenvolupadors o usuaris tècnics que volen una solució gratuïta auto-allotjada.
  • Adobe Acrobat en línia (gratuït limitat): Adobe ofereix processament OCR gratuït limitat a través de les seves eines en línia per a usuaris sense subscripció.

Consells per millorar la precisió de l’OCR

La qualitat de l’OCR depèn en gran mesura de la qualitat de l’escaneig original. Seguiu aquests consells per maximitzar la precisió:

  • Escanegeu a 300 DPI o més: Els escaneigs de baixa resolució produeixen caràcters borrosos que els motors OCR llegeixen malament. 300 DPI és el mínim; 600 DPI és ideal per a text petit o documents detallats.
  • Useu blanc i negre per a documents de text: Els escaneigs en color augmenten la mida de l’arxiu sense millorar la precisió de l’OCR per al text senzill. El blanc i negre o l’escala de grisos és suficient per a la majoria dels documents.
  • Mantingueu les pàgines rectes: Les pàgines inclinades o torcudes confonen el programari OCR. La majoria d’eines modernes poden corregir automàticament la inclinació, però començar recte ajuda.
  • Eviteu taques de cafè i brutícia: Les marques físiques al document es llegeixen incorrectament com a caràcters. Netegeu l’original si és possible.
  • Reviseu el resultat: L’OCR no és 100% precís. Sempre reviseu el resultat, especialment per a números, puntuació i seccions manuscrites.

Després de l’OCR: reduïu la mida de l’arxiu si cal

El processament OCR de vegades pot augmentar la mida de l’arxiu PDF perquè afegeix una capa de text oculta sobre la capa d’imatge existent. Si l’arxiu resultant és massa gran, useu el nostre compressor de PDF per reduir la mida sense perdre qualitat visual.

Què fer si OCR no reconeix el text correctament?

La precisió de l’OCR depèn de la qualitat de l’escaneig original. Els resultats deficients són habituals amb: fonts molt petites (per sota de 8 pt), text manuscrit, fonts decoratives o inusuals, tinta esvaïda o escaneigs de baixa qualitat per sota de 200 DPI. En aquests casos, pot ser necessari tornar a escriure manualment, o tornar a escanejar el document original amb més qualitat abans d’executar l’OCR de nou.

Preguntas frecuentes

Per què el text del meu PDF no és seleccionable?
El vostre PDF és una imatge escanejada, no un document amb una capa de text incrustada. Quan un document en paper s’escaneja i es desa com a PDF, el resultat és essencialment una fotografia de la pàgina: píxels amb forma de lletres, però no text real. Per fer-lo seleccionable, cal executar OCR per afegir una capa de text.
Hi ha alguna manera gratuïta de fer seleccionable el text d'un PDF escanejat?
Sí - Google Drive ofereix OCR gratuït: pugeu el PDF, feu clic dret i obriu-lo amb Google Docs. Google reconeix el text automàticament. Alternativament, el nostre convertidor de PDF a Word extreu el contingut en un document editable. Per a una solució d’escriptori completament gratuïta, Tesseract OCR és de codi obert i molt potent.
L'OCR canvia l'aparença del PDF?
No - l’OCR afegeix una capa de text invisible darrere de la imatge existent. L’aparença visual del PDF es manté exactament igual. Simplement guanyeu la capacitat de seleccionar, copiar i cercar el text. L’única excepció és si convertiu a Word i reexporteu, on poden produir-se petits canvis de format.
Quina és la precisió de l'OCR en documents escanejats?
L’OCR modern té una precisió del 95-99% en documents nets i ben escanejats a 300 DPI o més. La precisió disminueix significativament per a escaneigs de baixa resolució, escriptura a mà, fonts inusuals o pàgines amb danys físics. Sempre reviseu el resultat abans d’usar-lo en documents importants.
Puc fer seleccionable amb OCR el text manuscrit d'un PDF?
L’OCR estàndard funciona malament amb l’escriptura a mà - està dissenyat per a text imprès i mecanografiat. Existeixen eines especialitzades de reconeixement d’escriptura manual, però són molt menys precises que l’OCR per a text imprès. Si el document té text imprès i manuscrit barrejats, l’OCR reconeixerà correctament les parts impreses però probablement llegirà malament les seccions manuscrites.

Artículos relacionados