OpenPDFTools

Il testo di un PDF scansionato non è selezionabile - Come risolvere con l'OCR

Martin PavličAggiornato il 8 aprile 20266 min di lettura
Condividi
Il testo di un PDF scansionato non è selezionabile - Come risolvere con l'OCR

Perché non riesce a selezionare il testo in un PDF scansionato?

Quando un documento viene scansionato fisicamente e salvato come PDF, lo scanner cattura un’immagine piatta della pagina, proprio come scattare una foto. Il file risultante non contiene caratteri di testo reali, solo pixel disposti in modo da sembrare lettere. Ecco perché fare clic in qualsiasi punto del documento non seleziona nulla: non esiste un livello di testo che il cursore possa afferrare.

Questa è una delle frustrazioni più comuni con i PDF. Il documento sembra perfettamente leggibile sullo schermo, ma è essenzialmente una fotografia incorporata in un contenitore PDF. Non è possibile cercarlo, copiarlo o lasciare che un lettore di schermo lo interpreti.

Cos’è l’OCR e come risolve questo problema?

L’OCR (Riconoscimento Ottico dei Caratteri) è una tecnologia che analizza l’immagine del testo e la converte in caratteri reali leggibili dalle macchine. Il software esamina le forme delle lettere, le confronta con modelli noti e genera un livello di testo che viene reintegrato nel PDF.

Dopo l’elaborazione OCR, si ottiene un PDF ricercabile con testo selezionabile, visivamente identico all’originale, ma ora il cursore può evidenziare parole, Ctrl+F può trovare frasi e il copia-incolla funziona normalmente. Anche i lettori di schermo e gli strumenti di accessibilità riescono a leggerlo.

Come applicare l’OCR a un PDF scansionato

Esistono diversi modi per aggiungere l’OCR a un PDF scansionato, dagli strumenti gratuiti nel browser ai software desktop:

  • Convertire in Word e poi salvare come PDF: Il nostro convertitore da PDF a Word estrae il contenuto visivo e lo converte in un documento Word modificabile. Una volta in Word, il testo è completamente selezionabile. È poi possibile riesportare in PDF con un livello di testo appropriato.
  • Adobe Acrobat (a pagamento): Lo strumento standard del settore. Apra il PDF, vada su Strumenti → Scansiona e OCR → Riconosci testo, e Acrobat aggiunge direttamente un livello di testo. Costoso ma molto preciso.
  • Google Drive (gratuito): Carichi il suo PDF scansionato su Google Drive, faccia clic destro e scelga "Apri con Google Docs." Google esegue automaticamente l’OCR e apre il testo in un documento Docs. Funziona sorprendentemente bene per le scansioni nitide.
  • Tesseract OCR (gratuito, open source): Un potente motore OCR a riga di comando usato da molte applicazioni. Ideale per sviluppatori o utenti tecnici che desiderano una soluzione gratuita self-hosted.
  • Adobe Acrobat online (gratuito limitato): Adobe offre elaborazione OCR gratuita limitata tramite i suoi strumenti online per gli utenti senza abbonamento.

Suggerimenti per migliorare la precisione dell’OCR

La qualità dell’OCR dipende fortemente dalla qualità della scansione originale. Segua questi suggerimenti per massimizzare la precisione:

  • Esegua la scansione a 300 DPI o superiore: Le scansioni a bassa risoluzione producono caratteri sfocati che i motori OCR interpretano male. 300 DPI è il minimo; 600 DPI è ideale per testo piccolo o documenti dettagliati.
  • Usi il bianco e nero per i documenti di testo: Le scansioni a colori aumentano la dimensione del file senza migliorare la precisione dell’OCR per il testo semplice. Il bianco e nero o la scala di grigi è sufficiente per la maggior parte dei documenti.
  • Mantenga le pagine dritte: Le pagine inclinate o storte confondono il software OCR. La maggior parte degli strumenti moderni può raddrizzare automaticamente, ma partire dritti aiuta.
  • Eviti macchie di caffè e sbavature: I segni fisici sul documento vengono interpretati erroneamente come caratteri. Pulisca l’originale se possibile.
  • Controlli il risultato: L’OCR non è preciso al 100%. Rilegga sempre il risultato, specialmente per numeri, punteggiatura e sezioni manoscritte.

Dopo l’OCR: ridurre la dimensione del file se necessario

L’elaborazione OCR può a volte aumentare la dimensione del file PDF perché aggiunge un livello di testo nascosto sopra il livello immagine esistente. Se il file risultante è troppo grande, utilizzi il nostro compressore PDF per ridurre la dimensione senza perdere qualità visiva.

Cosa fare se l’OCR non riconosce correttamente il testo?

La precisione dell’OCR dipende dalla qualità della scansione originale. I risultati scarsi sono comuni con: caratteri molto piccoli (sotto gli 8 pt), testo manoscritto, caratteri decorativi o insoliti, inchiostro sbiadito o scansioni di bassa qualità sotto i 200 DPI. In questi casi potrebbe essere necessario riscrivere manualmente, oppure ripetere la scansione del documento originale a qualità superiore prima di eseguire nuovamente l’OCR.

Domande frequenti

Perché il testo del mio PDF non è selezionabile?
Il suo PDF è un’immagine scansionata, non un documento con un livello di testo incorporato. Quando un documento cartaceo viene scansionato e salvato come PDF, il risultato è essenzialmente una fotografia della pagina - pixel a forma di lettere, ma non testo reale. Per renderlo selezionabile, è necessario eseguire l’OCR per aggiungere un livello di testo.
Esiste un modo gratuito per rendere selezionabile il testo di un PDF scansionato?
Sì - Google Drive offre OCR gratuito: carichi il PDF, faccia clic destro e apra con Google Docs. Google riconosce il testo automaticamente. In alternativa, il nostro convertitore da PDF a Word estrae il contenuto in un documento modificabile. Per una soluzione desktop completamente gratuita, Tesseract OCR è open source e molto potente.
L'OCR modifica l'aspetto del PDF?
No - l’OCR aggiunge un livello di testo invisibile dietro l’immagine esistente. L’aspetto visivo del PDF rimane esattamente lo stesso. Si guadagna solo la possibilità di selezionare, copiare e cercare il testo. L’unica eccezione è se si converte in Word e si riesporta, dove possono verificarsi piccole modifiche alla formattazione.
Quanto è preciso l'OCR sui documenti scansionati?
L’OCR moderno è preciso al 95-99% su documenti puliti e ben scansionati a 300 DPI o superiore. La precisione cala significativamente per scansioni a bassa risoluzione, scrittura a mano, caratteri insoliti o pagine danneggiate fisicamente. Rilegga sempre il risultato prima di utilizzarlo per documenti importanti.
Posso rendere selezionabile con l'OCR il testo manoscritto in un PDF?
L’OCR standard funziona male sulla scrittura a mano - è progettato per testo stampato e digitato. Esistono strumenti specializzati per il riconoscimento della scrittura a mano, ma sono molto meno precisi dell’OCR per il testo stampato. Se il documento contiene testo misto a stampa e manoscritto, l’OCR riconoscerà correttamente le parti stampate ma probabilmente interpreterà male le sezioni manoscritte.

Articoli correlati