OCR PDF Online — Gescanntes PDF in durchsuchbaren Text
Wandle gescannte PDFs mit OCR in durchsuchbaren und kopierbaren Text um. Kostenlos, ohne Anmeldung.
.pdf · bis zu 2 GB
Wofür OCR genutzt wird
OCR-PDF: mache jedes gescannte Dokument durchsuchbar
Durchsuchbare Dokumente
Wandle gescannte Dateien in PDFs um, in denen du Wörter suchen, Text markieren und Ausschnitte kopieren kannst.
Historische Archive
Digitalisiere und erschließe historische Dokumentation, Papierakten und physische Vertragsarchive.
Barrierefreiheit
Dokumente mit OCR-Schicht sind für Screenreader zugänglich und erfüllen die Anforderungen an digitale Barrierefreiheit.
Mehrsprachig
Unterstützung für mehr als 100 Sprachen, darunter Deutsch, Englisch, Arabisch, Chinesisch, Russisch und viele mehr mit Tesseract 5.
So funktioniert es
Drei Schritte, kein Aufwand
Lade dein gescanntes PDF hoch
Ziehe das gescannte PDF per Drag-and-drop oder wähle es aus. OCR funktioniert bei PDFs, die aus Bildern bestehen – physisch gescannte Dokumente, Dokumentfotos und digitalisierte Faxe.
OCR-Erkennung
Die OCR-Engine analysiert jede Seite als Bild, identifiziert die Zeichen und erzeugt eine unsichtbare Textebene, die über das ursprüngliche Dokumentbild gelegt wird.
Lade das durchsuchbare PDF herunter
Das resultierende PDF sieht identisch zum Original aus, aber du kannst jetzt Text darin suchen, Text auswählen und kopieren. Die Informationen sind zudem für Indexierungsprogramme und Screenreader zugänglich.
FAQ
Noch Fragen?
OCR (Optical Character Recognition, optische Zeichenerkennung) ist die Technologie, die Bilder von Text in digital kodierten Text umwandelt. Der Prozess hat drei Hauptphasen: Bildvorverarbeitung (Schräglagenkorrektur, Rauschentfernung, Binarisierung), Segmentierung (Identifizierung von Textzeilen, Wörtern und einzelnen Zeichen) und Erkennung (Vergleich jedes Zeichens mit Referenzmodellen, um das wahrscheinlichste Zeichen zu bestimmen). Moderne OCR-Engines, die auf LSTM-Rückwärtsneuronalnetzen (Long Short-Term Memory) basieren, übertreffen klassische vorlagenbasierte Methoden in der Genauigkeit, insbesondere bei Dokumenten mit unregelmäßigen Schriftarten, schräg ausgerichtetem oder verblasstem Text.
Tesseract 5, die am weitesten verbreitete Open-Source-OCR-Engine – ursprünglich von HP in den 1980er-Jahren entwickelt, von Google übernommen und unter der Apache-2.0-Lizenz veröffentlicht, wobei die auf LSTM basierende Version 5.0 im November 2021 erschien –, erreicht bei gedruckten deutschen Dokumenten, die mit 300 DPI gescannt wurden und guter Qualität sind, Genauigkeitsraten von 98 bis 99 %. Deutsch wird in Tesseract vollständig unterstützt, einschließlich Umlaute und ß. Dokumente mit Standardschriftarten wie Times New Roman, Arial oder Calibri haben sehr hohe Genauigkeitsraten. Dokumente mit dekorativen Schriftarten, sehr kleinem Text unter 8 Punkt oder altersbedingter Degradierung haben niedrigere Genauigkeitsraten.
OCR zu durchsuchbarem PDF – auch PDF mit OCR-Schicht oder text-eingebettetes PDF genannt – behält das ursprüngliche Dokumentbild bei und fügt eine unsichtbare Textebene hinzu, die das Dokument durchsuchbar macht. Das visuelle Erscheinungsbild ist identisch mit dem ursprünglichen Scan. OCR zu Text extrahiert nur den erkannten Text ohne das ursprüngliche Bild zu bewahren. Für Dokumente, bei denen das ursprüngliche Bild rechtlichen Wert hat – signierte Verträge, notarielle Dokumente, Rechnungen mit Stempel –, ist das durchsuchbare PDF die richtige Wahl. Für Datenextraktion oder Textanalyse ist die direkte Extraktion in TXT effizienter.
Ja. Tesseract 5 unterstützt mehr als 100 Sprachen, darunter Deutsch, Englisch, Französisch, Spanisch, Portugiesisch, Italienisch, Russisch, vereinfachtes und traditionelles Chinesisch, Japanisch, Arabisch, Hindi und viele weitere. Bei Dokumenten, die auf derselben Seite mehrere Sprachen mischen, kann der Mehrsprachen-Erkennungsmodus aktiviert werden, der die Genauigkeit im Vergleich zu einer einzigen festen Sprache verbessert.
Die empfohlene Mindestauflösung für qualitativ hochwertige OCR ist 300 DPI. Bei dieser Auflösung sind die meisten gedruckten Schriftarten ausreichend definiert, damit die OCR-Engine sie korrekt erkennen kann. Bei 150 DPI sinkt die Genauigkeit deutlich, insbesondere bei kleinem Fließtext mit 10 bis 12 Punkt. Bei 600 DPI ist die Qualität exzellent, aber die Scannerdateigröße ist ohne proportionale Verbesserung der OCR-Genauigkeit für normalen Text deutlich größer. Für Dokumente mit Kleinstdruck – sehr kleiner Text wie Fußnoten in juristischen Dokumenten – kann ein Scan mit 400 bis 600 DPI notwendig sein.
Gemischte PDFs mit Seiten, die nativen Text enthalten, und gescannten Seiten sind häufig – zum Beispiel ein Vertrag, bei dem die ersten Seiten digital erzeugter Text sind und die letzte Seite eine gescannte Unterschrift enthält. Moderne OCR-Engines können automatisch erkennen, welche Seiten echten Text und welche nur Bilder enthalten, und OCR nur dort anwenden, wo es notwendig ist. Das verhindert die unnötige Wiederverarbeitung von Seiten, die bereits lesbaren Text haben.
OCR-PDF: wie du ein gescanntes Dokument mit optischer Erkennungstechnologie durchsuchbar machst
OCR (Optical Character Recognition, optische Zeichenerkennung), angewendet auf gescannte PDFs, ist eine der transformativsten Technologien im Dokumentenmanagement. Vor dem Einsatz von OCR waren physische Dokumente, die als PDF eingescannt wurden, stumme Bilder: Man konnte kein Wort suchen, keinen Text markieren und keinen Screenreader zum Vorlesen einsetzen. OCR verwandelt diese Seitenbilder in Dokumente mit echtem Text, während das ursprüngliche visuelle Erscheinungsbild erhalten bleibt. Die Geschichte des OCR ist lang: Die ersten automatischen Zeichenerkennungssysteme für Postpost datieren aus den 1950er-Jahren. Die ersten kommerziellen PC-Produkte erschienen in den 1980er-Jahren mit OmniPage (Caere Corporation, 1988) und FineReader (ABBYY, 1993). Den Durchbruch brachten maschinell lernende Engines: Tesseract, ursprünglich von HP Research Laboratories in Bristol zwischen 1985 und 1995 entwickelt, wurde 2006 von Google übernommen und als Open Source veröffentlicht. Version 4 aus dem Jahr 2018 führte LSTM-Architekturen ein, die die Genauigkeit dramatisch verbesserten. Version 5 vom November 2021 verfeinerte diese Modelle, um unter optimalen Bedingungen Genauigkeitsraten von 98 bis 99 % zu erreichen.
Das Anwenden von OCR auf gescannte PDFs hat zwei Ausgabemodi mit unterschiedlichen Anwendungsfällen. Der erste ist das durchsuchbare PDF (auch als PDF/OCR bekannt): Das resultierende PDF behält das ursprüngliche Dokumentbild bei und fügt eine unsichtbare Textebene hinzu, die Suche, Textauswahl und Barrierefreiheit ermöglicht, ohne das visuelle Erscheinungsbild zu verändern. Dieser Modus ist korrekt für Dokumente mit rechtlichem oder archivistischem Wert, bei denen das ursprüngliche Bild vollständig erhalten bleiben muss – signierte Verträge, notarielle Dokumente, Rechnungen mit Briefkopf und Krankenakten. Der zweite Modus ist die reine Textextraktion (TXT): Es wird nur der erkannte Text extrahiert, wobei das visuelle Format verloren geht. Dieser Modus eignet sich besser für Textanalysen, das Versorgen von Suchsystemen oder die Verarbeitung von Inhalten mit Datenverarbeitungstools. Der Standard PDF/A-3 (ISO 19005-3, veröffentlicht 2012) ermöglicht es, OCR-Text in das PDF einzubetten, sodass das Dokument sowohl ein treues visuelles Archiv als auch zugänglicher Text ist – das empfohlene Format für institutionelle Archive.
Die OCR-Genauigkeit hängt von mehreren Faktoren ab, die du beeinflussen kannst. Die Scanner-Auflösung ist der wichtigste: 300 DPI liefert optimale Ergebnisse für die meisten Schriftarten mit 10 bis 12 Punkt. Die Hintergrundfarbe des Dokuments ist ebenfalls wichtig: OCR funktioniert am besten auf weißem Hintergrund mit schwarzem Text und hohem Kontrast. Dokumente mit farbigen Hintergründen, Wasserzeichen, sich überlappenden Stempeln oder Text, der über Hintergrundbilder gedruckt ist, haben niedrigere Genauigkeit. Die Qualität des Originalpapieres und das Alter des Dokuments spielen ebenfalls eine Rolle: Ein Dokument aus den 1970er-Jahren, das auf vergilbtem Papier mit verblasster Tinte gedruckt wurde, hat eine geringere Genauigkeit als ein 2020 gedrucktes Dokument. Für historisch beschädigte Dokumente verbessern Bildvorverarbeitungstechniken – Kontrastverbesserung, Fleckenentfernung, Schräglagenkorrektur – die OCR-Genauigkeit erheblich. Convertir.ai wendet vor dem OCR eine automatische Vorverarbeitung an, um die Genauigkeit für die meisten üblichen gescannten Dokumente zu maximieren.