OCR PDF Online — Gescanntes PDF in durchsuchbaren Text

Wandle gescannte PDFs mit OCR in durchsuchbaren und kopierbaren Text um. Kostenlos, ohne Anmeldung.

PDF hier ablegen

.pdf · bis zu 2 GB

KostenlosKeine AnmeldungKein WasserzeichenOCR inklusive

Wofür OCR genutzt wird

OCR-PDF: mache jedes gescannte Dokument durchsuchbar

Durchsuchbare Dokumente

Wandle gescannte Dateien in PDFs um, in denen du Wörter suchen, Text markieren und Ausschnitte kopieren kannst.

Historische Archive

Digitalisiere und erschließe historische Dokumentation, Papierakten und physische Vertragsarchive.

Barrierefreiheit

Dokumente mit OCR-Schicht sind für Screenreader zugänglich und erfüllen die Anforderungen an digitale Barrierefreiheit.

Mehrsprachig

Unterstützung für mehr als 100 Sprachen, darunter Deutsch, Englisch, Arabisch, Chinesisch, Russisch und viele mehr mit Tesseract 5.

So funktioniert es

Drei Schritte, kein Aufwand

Lade dein gescanntes PDF hoch

Ziehe das gescannte PDF per Drag-and-drop oder wähle es aus. OCR funktioniert bei PDFs, die aus Bildern bestehen – physisch gescannte Dokumente, Dokumentfotos und digitalisierte Faxe.

OCR-Erkennung

Die OCR-Engine analysiert jede Seite als Bild, identifiziert die Zeichen und erzeugt eine unsichtbare Textebene, die über das ursprüngliche Dokumentbild gelegt wird.

Lade das durchsuchbare PDF herunter

Das resultierende PDF sieht identisch zum Original aus, aber du kannst jetzt Text darin suchen, Text auswählen und kopieren. Die Informationen sind zudem für Indexierungsprogramme und Screenreader zugänglich.

FAQ

Noch Fragen?

Was ist OCR und wie funktioniert es?

OCR (Optical Character Recognition, optische Zeichenerkennung) ist die Technologie, die Bilder von Text in digital kodierten Text umwandelt. Der Prozess hat drei Hauptphasen: Bildvorverarbeitung (Schräglagenkorrektur, Rauschentfernung, Binarisierung), Segmentierung (Identifizierung von Textzeilen, Wörtern und einzelnen Zeichen) und Erkennung (Vergleich jedes Zeichens mit Referenzmodellen, um das wahrscheinlichste Zeichen zu bestimmen). Moderne OCR-Engines, die auf LSTM-Rückwärtsneuronalnetzen (Long Short-Term Memory) basieren, übertreffen klassische vorlagenbasierte Methoden in der Genauigkeit, insbesondere bei Dokumenten mit unregelmäßigen Schriftarten, schräg ausgerichtetem oder verblasstem Text.

Welche Genauigkeit erreicht OCR bei deutschen Dokumenten?

Tesseract 5, die am weitesten verbreitete Open-Source-OCR-Engine – ursprünglich von HP in den 1980er-Jahren entwickelt, von Google übernommen und unter der Apache-2.0-Lizenz veröffentlicht, wobei die auf LSTM basierende Version 5.0 im November 2021 erschien –, erreicht bei gedruckten deutschen Dokumenten, die mit 300 DPI gescannt wurden und guter Qualität sind, Genauigkeitsraten von 98 bis 99 %. Deutsch wird in Tesseract vollständig unterstützt, einschließlich Umlaute und ß. Dokumente mit Standardschriftarten wie Times New Roman, Arial oder Calibri haben sehr hohe Genauigkeitsraten. Dokumente mit dekorativen Schriftarten, sehr kleinem Text unter 8 Punkt oder altersbedingter Degradierung haben niedrigere Genauigkeitsraten.

Was ist der Unterschied zwischen OCR zu durchsuchbarem PDF und OCR zu Text?

OCR zu durchsuchbarem PDF – auch PDF mit OCR-Schicht oder text-eingebettetes PDF genannt – behält das ursprüngliche Dokumentbild bei und fügt eine unsichtbare Textebene hinzu, die das Dokument durchsuchbar macht. Das visuelle Erscheinungsbild ist identisch mit dem ursprünglichen Scan. OCR zu Text extrahiert nur den erkannten Text ohne das ursprüngliche Bild zu bewahren. Für Dokumente, bei denen das ursprüngliche Bild rechtlichen Wert hat – signierte Verträge, notarielle Dokumente, Rechnungen mit Stempel –, ist das durchsuchbare PDF die richtige Wahl. Für Datenextraktion oder Textanalyse ist die direkte Extraktion in TXT effizienter.

Funktioniert das auch mit Dokumenten in mehreren Sprachen?

Ja. Tesseract 5 unterstützt mehr als 100 Sprachen, darunter Deutsch, Englisch, Französisch, Spanisch, Portugiesisch, Italienisch, Russisch, vereinfachtes und traditionelles Chinesisch, Japanisch, Arabisch, Hindi und viele weitere. Bei Dokumenten, die auf derselben Seite mehrere Sprachen mischen, kann der Mehrsprachen-Erkennungsmodus aktiviert werden, der die Genauigkeit im Vergleich zu einer einzigen festen Sprache verbessert.

Welche Scanner-Auflösung ist für eine gute OCR-Genauigkeit erforderlich?

Die empfohlene Mindestauflösung für qualitativ hochwertige OCR ist 300 DPI. Bei dieser Auflösung sind die meisten gedruckten Schriftarten ausreichend definiert, damit die OCR-Engine sie korrekt erkennen kann. Bei 150 DPI sinkt die Genauigkeit deutlich, insbesondere bei kleinem Fließtext mit 10 bis 12 Punkt. Bei 600 DPI ist die Qualität exzellent, aber die Scannerdateigröße ist ohne proportionale Verbesserung der OCR-Genauigkeit für normalen Text deutlich größer. Für Dokumente mit Kleinstdruck – sehr kleiner Text wie Fußnoten in juristischen Dokumenten – kann ein Scan mit 400 bis 600 DPI notwendig sein.

Kann OCR auch auf PDFs angewendet werden, die bereits etwas Text enthalten?

Gemischte PDFs mit Seiten, die nativen Text enthalten, und gescannten Seiten sind häufig – zum Beispiel ein Vertrag, bei dem die ersten Seiten digital erzeugter Text sind und die letzte Seite eine gescannte Unterschrift enthält. Moderne OCR-Engines können automatisch erkennen, welche Seiten echten Text und welche nur Bilder enthalten, und OCR nur dort anwenden, wo es notwendig ist. Das verhindert die unnötige Wiederverarbeitung von Seiten, die bereits lesbaren Text haben.