OpenPDFTools

Le texte d'un PDF scanné n'est pas sélectionnable - Comment le corriger avec l'OCR

Martin PavličMis à jour le 8 avril 20266 min de lecture
Partager
Le texte d'un PDF scanné n'est pas sélectionnable - Comment le corriger avec l'OCR

Pourquoi ne pouvez-vous pas sélectionner du texte dans un PDF scanné ?

Quand un document est physiquement scanné et enregistré en PDF, le scanner capture une image plate de la page, comme s’il prenait une photo. Le fichier obtenu ne contient aucun caractère de texte réel, seulement des pixels arrangés pour ressembler à des lettres. C’est pourquoi cliquer n’importe où dans le document ne sélectionne rien : il n’y a pas de couche de texte que votre curseur puisse saisir.

C’est l’une des frustrations les plus fréquentes avec les PDF. Le document semble parfaitement lisible à l’écran, mais c’est essentiellement une photographie intégrée dans un conteneur PDF. Vous ne pouvez pas le rechercher, le copier, ni le faire lire par un lecteur d’écran.

Qu’est-ce que l’OCR et comment résout-il ce problème ?

L’OCR (Reconnaissance Optique de Caractères) est une technologie qui analyse l’image du texte et la convertit en caractères réels lisibles par une machine. Le logiciel examine la forme des lettres, les compare à des modèles connus et génère une couche de texte qui est ensuite réintégrée dans le PDF.

Après le traitement OCR, vous obtenez un PDF consultable avec texte sélectionnable, visuellement identique à l’original, mais votre curseur peut désormais surligner des mots, Ctrl+F peut trouver des phrases, et le copier-coller fonctionne normalement. Les lecteurs d’écran et les outils d’accessibilité peuvent également le lire.

Comment appliquer l’OCR à un PDF scanné

Il existe plusieurs façons d’ajouter l’OCR à un PDF scanné, des outils gratuits en ligne aux logiciels de bureau :

  • Convertir en Word puis enregistrer en PDF : Notre convertisseur PDF en Word extrait le contenu visuel et le convertit en document Word modifiable. Une fois dans Word, le texte est entièrement sélectionnable. Vous pouvez ensuite réexporter en PDF avec une couche de texte appropriée.
  • Adobe Acrobat (payant) : L’outil de référence du secteur. Ouvrez le PDF, allez dans Outils → Numériser et OCR → Reconnaître le texte, et Acrobat ajoute directement une couche de texte. Coûteux, mais très précis.
  • Google Drive (gratuit) : Téléversez votre PDF scanné sur Google Drive, faites un clic droit et choisissez "Ouvrir avec Google Docs." Google effectue automatiquement l’OCR et ouvre le texte dans un document Docs. Fonctionne étonnamment bien pour les scans nets.
  • Tesseract OCR (gratuit, open source) : Un puissant moteur OCR en ligne de commande utilisé par de nombreuses applications. Idéal pour les développeurs ou les utilisateurs techniques qui souhaitent une solution gratuite auto-hébergée.
  • Adobe Acrobat en ligne (gratuit limité) : Adobe propose un traitement OCR gratuit limité via ses outils en ligne pour les utilisateurs sans abonnement.

Conseils pour améliorer la précision de l’OCR

La qualité de l’OCR dépend fortement de la qualité du scan original. Suivez ces conseils pour maximiser la précision :

  • Scannez à 300 DPI ou plus : Les scans à faible résolution produisent des caractères flous que les moteurs OCR lisent mal. 300 DPI est le minimum ; 600 DPI est idéal pour les petits textes ou les documents détaillés.
  • Utilisez le noir et blanc pour les documents texte : Les scans couleur augmentent la taille du fichier sans améliorer la précision OCR pour le texte brut. Le noir et blanc ou les niveaux de gris suffisent pour la plupart des documents.
  • Gardez les pages droites : Les pages inclinées ou de travers perturbent le logiciel OCR. La plupart des outils modernes peuvent redresser automatiquement, mais partir droit est préférable.
  • Évitez les taches de café et les souillures : Les marques physiques sur le document sont interprétées comme des caractères. Nettoyez l’original si possible.
  • Vérifiez le résultat : L’OCR n’est pas précis à 100 %. Relisez toujours le résultat, surtout pour les chiffres, la ponctuation et les sections manuscrites.

Après l’OCR : réduire la taille du fichier si nécessaire

Le traitement OCR peut parfois augmenter la taille du fichier PDF car il ajoute une couche de texte cachée par-dessus la couche image existante. Si le fichier obtenu est trop volumineux, utilisez notre compresseur de PDF pour réduire la taille sans perdre en qualité visuelle.

Que faire si l’OCR ne reconnaît pas correctement le texte ?

La précision de l’OCR dépend de la qualité du scan original. Les résultats médiocres sont fréquents avec : les très petites polices (en dessous de 8 pt), le texte manuscrit, les polices décoratives ou inhabituelles, l’encre délavée ou les scans de mauvaise qualité en dessous de 200 DPI. Dans ces cas, la ressaisie manuelle peut être nécessaire, ou il faudra rescanner le document original à une meilleure qualité avant de relancer l’OCR.

Questions fréquentes

Pourquoi le texte de mon PDF n'est-il pas sélectionnable ?
Votre PDF est une image scannée, pas un document avec une couche de texte intégrée. Quand un document papier est scanné et enregistré en PDF, le résultat est essentiellement une photographie de la page - des pixels en forme de lettres, mais pas du vrai texte. Pour le rendre sélectionnable, vous devez effectuer un OCR pour ajouter une couche de texte.
Existe-t-il un moyen gratuit de rendre le texte d'un PDF scanné sélectionnable ?
Oui - Google Drive propose un OCR gratuit : téléversez le PDF, faites un clic droit et ouvrez-le avec Google Docs. Google reconnaît automatiquement le texte. Alternativement, notre convertisseur PDF en Word extrait le contenu dans un document modifiable. Pour une solution de bureau entièrement gratuite, Tesseract OCR est open source et très puissant.
L'OCR modifie-t-il l'apparence du PDF ?
Non - l’OCR ajoute une couche de texte invisible derrière l’image existante. L’apparence visuelle du PDF reste exactement la même. Vous gagnez simplement la possibilité de sélectionner, copier et rechercher le texte. La seule exception est si vous convertissez en Word et réexportez, auquel cas de légères modifications de mise en forme peuvent survenir.
Quelle est la précision de l'OCR sur les documents scannés ?
L’OCR moderne est précis à 95-99 % sur des documents propres et bien scannés à 300 DPI ou plus. La précision chute significativement pour les scans basse résolution, l’écriture manuscrite, les polices inhabituelles ou les pages endommagées. Relisez toujours le résultat avant de l’utiliser pour des documents importants.
Puis-je rendre un texte manuscrit dans un PDF sélectionnable avec l'OCR ?
L’OCR standard fonctionne mal sur l’écriture manuscrite - il est conçu pour le texte imprimé et dactylographié. Des outils spécialisés de reconnaissance de l’écriture existent, mais sont bien moins précis que l’OCR pour le texte imprimé. Si le document mêle texte imprimé et manuscrit, l’OCR reconnaîtra correctement les parties imprimées mais lira probablement mal les sections manuscrites.

Articles associés