OpenPDFTools

Text in gescanntem PDF nicht auswählbar - So beheben Sie es mit OCR

Martin PavličAktualisiert 8. April 20266 Min. Lesezeit
Teilen
Text in gescanntem PDF nicht auswählbar - So beheben Sie es mit OCR

Warum können Sie Text in einem gescannten PDF nicht auswählen?

Wenn ein Dokument physisch gescannt und als PDF gespeichert wird, nimmt der Scanner ein flaches Bild der Seite auf - ähnlich wie ein Foto. Die resultierende Datei enthält keine eigentlichen Textzeichen, sondern nur Pixel, die wie Buchstaben aussehen. Deshalb wählt ein Klick irgendwo im Dokument nichts aus: Es gibt keine Textebene, die Ihr Cursor greifen kann.

Dies ist eine der häufigsten PDF-Frustrationen. Das Dokument sieht auf dem Bildschirm perfekt lesbar aus, ist aber im Wesentlichen ein in einen PDF-Wrapper eingebettetes Foto. Sie können es nicht durchsuchen, nicht daraus kopieren und ein Screenreader kann es nicht verarbeiten.

Was ist OCR und wie behebt es das Problem?

OCR (Optical Character Recognition) ist eine Technologie, die das Textbild analysiert und es in tatsächliche, maschinenlesbare Zeichen umwandelt. Die Software analysiert die Buchstabenformen, vergleicht sie mit bekannten Mustern und erzeugt eine Textebene, die zurück in das PDF eingebettet wird.

Nach der OCR-Verarbeitung erhalten Sie ein durchsuchbares, auswählbares PDF - visuell identisch mit dem Original, aber jetzt kann Ihr Cursor Wörter markieren, Ctrl+F kann Phrasen finden, und Kopieren und Einfügen funktioniert normal. Screenreader und Barrierefreiheits-Tools können es ebenfalls lesen.

So wenden Sie OCR auf ein gescanntes PDF an

Es gibt verschiedene Möglichkeiten, OCR zu einem gescannten PDF hinzuzufügen, von kostenlosen Browser-Tools bis hin zu Desktop-Software:

  • In Word konvertieren, dann als PDF speichern: Unser PDF-zu-Word-Konverter extrahiert den visuellen Inhalt und wandelt ihn in ein bearbeitbares Word-Dokument um. In Word ist der Text vollständig auswählbar. Sie können es dann mit einer ordentlichen Textebene zurück in PDF exportieren.
  • Adobe Acrobat (kostenpflichtig): Das Branchenstandard-Tool. Öffnen Sie das PDF, gehen Sie zu Werkzeuge → Scannen & OCR → Text erkennen, und Acrobat fügt direkt eine Textebene hinzu. Teuer, aber sehr genau.
  • Google Drive (kostenlos): Laden Sie Ihr gescanntes PDF auf Google Drive hoch, klicken Sie mit der rechten Maustaste darauf und wählen Sie "Mit Google Docs öffnen." Google führt automatisch OCR aus und öffnet den Text in einem Docs-Dokument. Funktioniert überraschend gut bei sauberen Scans.
  • Tesseract OCR (kostenlos, Open-Source): Eine leistungsstarke Befehlszeilen-OCR-Engine, die von vielen Apps verwendet wird. Am besten für Entwickler oder technische Benutzer, die eine kostenlose selbst gehostete Lösung möchten.
  • Adobe Acrobat online (eingeschränkt kostenlos): Adobe bietet eingeschränkte kostenlose OCR-Verarbeitung über ihre Online-Tools für Benutzer ohne Abonnement an.

Tipps für bessere OCR-Genauigkeit

Die OCR-Qualität hängt stark von der Qualität des Originalscans ab. Befolgen Sie diese Tipps, um die Genauigkeit zu maximieren:

  • Scannen Sie mit 300 DPI oder höher: Scans mit niedrigerer Auflösung erzeugen unscharfe Zeichen, die OCR-Engines falsch lesen. 300 DPI ist das Minimum; 600 DPI ist ideal für kleinen Text oder detaillierte Dokumente.
  • Verwenden Sie Schwarz-Weiß für Textdokumente: Farbscans erhöhen die Dateigröße, ohne die OCR-Genauigkeit für reinen Text zu verbessern. Schwarz-Weiß oder Graustufen reichen für die meisten Dokumente aus.
  • Seiten gerade halten: Geneigte oder verzerrte Seiten verwirren OCR-Software. Die meisten modernen Tools können automatisch entzerren, aber eine gerade Vorlage hilft.
  • Kaffeeflecken und Verschmierungen vermeiden: Physische Markierungen auf dem Dokument werden als Zeichen falsch gelesen. Reinigen Sie das Original wenn möglich.
  • Überprüfen Sie das Ergebnis: OCR ist nicht 100% genau. Überprüfen Sie das Ergebnis immer, besonders bei Zahlen, Satzzeichen und handgeschriebenen Abschnitten.

Nach OCR: Dateigröße bei Bedarf reduzieren

Die OCR-Verarbeitung kann manchmal die PDF-Dateigröße erhöhen, da sie eine versteckte Textebene über der vorhandenen Bildebene hinzufügt. Wenn Ihre resultierende Datei zu groß ist, verwenden Sie unseren PDF-Kompressor, um die Größe zu reduzieren, ohne die visuelle Qualität zu verlieren.

Was ist, wenn OCR den Text nicht korrekt erkennt?

Die OCR-Genauigkeit hängt von der Qualität des Originalscans ab. Schlechte Ergebnisse sind häufig bei: sehr kleinen Schriftarten (unter 8pt), handgeschriebenem Text, dekorativen oder ungewöhnlichen Schriftarten, verblasster Tinte oder qualitativ minderwertigen Scans unter 200 DPI. In diesen Fällen kann manuelles Abtippen notwendig sein - oder das Originaldokument mit höherer Qualität erneut scannen, bevor OCR erneut ausgeführt wird.

Häufig gestellte Fragen

Warum ist Text in meinem PDF nicht auswählbar?
Ihr PDF ist ein gescanntes Bild, kein Dokument mit einer eingebetteten Textebene. Wenn ein Papierdokument gescannt und als PDF gespeichert wird, ist das Ergebnis im Wesentlichen ein Foto der Seite - Pixel in Buchstabenform, aber kein eigentlicher Text. Um es auswählbar zu machen, müssen Sie OCR (Optical Character Recognition) ausführen, um eine Textebene hinzuzufügen.
Gibt es eine kostenlose Möglichkeit, Text in gescannten PDFs auswählbar zu machen?
Ja - Google Drive bietet kostenloses OCR: Laden Sie das PDF hoch, klicken Sie mit der rechten Maustaste darauf und öffnen Sie es mit Google Docs. Google erkennt den Text automatisch. Alternativ extrahiert unser PDF-zu-Word-Konverter den Inhalt in ein bearbeitbares Dokument. Für eine vollständig kostenlose Desktop-Lösung ist Tesseract OCR Open-Source und sehr leistungsstark.
Ändert OCR das Aussehen des PDFs?
Nein - OCR fügt eine unsichtbare Textebene hinter dem vorhandenen Bild hinzu. Das visuelle Erscheinungsbild des PDFs bleibt genau gleich. Sie erhalten nur die Möglichkeit, den Text auszuwählen, zu kopieren und zu durchsuchen. Die einzige Ausnahme ist, wenn Sie in Word konvertieren und erneut exportieren, wo geringfügige Formatierungsänderungen auftreten können.
Wie genau ist OCR bei gescannten Dokumenten?
Modernes OCR ist 95–99% genau bei sauberen, gut gescannten Dokumenten mit 300 DPI oder höher. Die Genauigkeit sinkt erheblich bei niedrig aufgelösten Scans, Handschrift, ungewöhnlichen Schriftarten oder Seiten mit physischen Beschädigungen. Überprüfen Sie das Ergebnis immer, bevor Sie es für wichtige Dokumente verwenden.
Kann ich handgeschriebenen PDF-Text mit OCR auswählbar machen?
Standard-OCR funktioniert schlecht bei Handschrift - es ist für gedruckten, getippten Text konzipiert. Spezialisierte Handschrifterkennungs-Tools existieren, sind aber weit weniger genau als OCR für gedruckten Text. Wenn das Dokument gemischten Druck und Handschrift enthält, erkennt OCR die gedruckten Teile korrekt, liest die handgeschriebenen Abschnitte aber wahrscheinlich falsch.

Verwandte Artikel