OCR PDF Online — Zeskanowany PDF na przeszukiwalny tekst
Konwertuj skanowane pliki PDF do tekstu z możliwością wyszukiwania i zaznaczania za pomocą OCR. Bezpłatnie, bez rejestracji.
.pdf · do 2 GB
Do czego służy OCR
OCR PDF: spraw, aby każdy skanowany dokument był przeszukiwalny
Przeszukiwalne dokumenty
Przekształcaj skanowane pliki w PDF-y, w których możesz wyszukiwać słowa, zaznaczać tekst i kopiować fragmenty.
Archiwa historyczne
Digitalizuj i udostępniaj dokumentację historyczną, papierowe akta i fizyczne archiwa umów.
Dostępność
Dokumenty z warstwą OCR są dostępne dla czytników ekranu i spełniają wymogi regulacji dotyczących dostępności cyfrowej.
Wielojęzyczność
Obsługa ponad 100 języków, w tym polskiego, angielskiego, arabskiego, chińskiego, rosyjskiego i wielu innych, dzięki Tesseract 5.
Jak to działa
Trzy kroki, żadnych komplikacji
Wgraj swój skanowany plik PDF
Przeciągnij lub wybierz skanowany plik PDF. OCR działa na plikach PDF będących obrazami — fizycznie zeskanowanych dokumentach, fotografiach dokumentów, zdigitalizowanych faksach.
Rozpoznawanie OCR
Silnik OCR analizuje każdą stronę jako obraz, identyfikuje znaki i generuje niewidoczną warstwę tekstu nałożoną na oryginalny obraz dokumentu.
Pobierz przeszukiwalny plik PDF
Wynikowy plik PDF wygląda identycznie jak oryginał, ale możesz teraz przeszukiwać tekst, zaznaczać i kopiować go, a informacje są dostępne dla indeksatorów i czytników ekranu.
FAQ
Masz pytania?
OCR (optyczne rozpoznawanie znaków) to technologia przekształcająca obrazy tekstu w cyfrowo zakodowany tekst. Proces przebiega w trzech głównych etapach: wstępne przetwarzanie obrazu (korekcja pochylenia, usuwanie szumów, binaryzacja), segmentacja (identyfikacja linii tekstu, słów i pojedynczych znaków) oraz rozpoznawanie (porównywanie każdego znaku z modelami referencyjnymi w celu wyznaczenia najbardziej prawdopodobnego znaku). Nowoczesne silniki OCR oparte na rekurencyjnych sieciach neuronowych LSTM (Long Short-Term Memory) przewyższają klasyczne metody oparte na szablonach pod względem dokładności, szczególnie w przypadku dokumentów z nieregularnymi krojami pisma, pochylonym lub zdegradowanym tekstem.
Tesseract 5, najszerzej stosowany silnik OCR open source (pierwotnie opracowany przez HP w latach 80., przejęty przez Google i opublikowany na licencji Apache 2.0, z opartą na LSTM wersją 5.0 wydaną w listopadzie 2021), osiąga dokładność 98–99% na drukowanych dokumentach w języku angielskim zeskanowanych w 300 DPI dobrej jakości. Dokumenty ze standardowymi krojami pisma (Times New Roman, Arial, Calibri) mają bardzo wysoką dokładność rozpoznawania. Dokumenty z ozdobnymi krojami pisma, bardzo małym tekstem (poniżej 8 punktów) lub degradacją z wiekiem mają niższą dokładność.
OCR do przeszukiwalnego PDF (zwanego też PDF z warstwą OCR lub PDF z osadzonym tekstem) zachowuje oryginalny obraz dokumentu i dodaje niewidoczną warstwę tekstu, która umożliwia przeszukiwanie dokumentu. Wygląd wizualny jest identyczny z oryginalnym skanem. OCR do tekstu wyodrębnia wyłącznie rozpoznany tekst bez zachowywania oryginalnego obrazu. Dla dokumentów, których oryginalny obraz ma wartość prawną (podpisane umowy, dokumenty notarialne, faktury z nagłówkiem firmowym), przeszukiwalny PDF jest właściwym rozwiązaniem. Do ekstrakcji danych lub analizy tekstu bezpośrednia ekstrakcja do TXT jest bardziej wydajna.
Tak. Tesseract 5 obsługuje ponad 100 języków, w tym angielski, hiszpański, francuski, niemiecki, portugalski, włoski, rosyjski, chiński uproszczony i tradycyjny, japoński, arabski, hindi i wiele innych. Dla dokumentów łączących języki na tej samej stronie można aktywować tryb rozpoznawania wielojęzycznego, który poprawia dokładność w porównaniu z ustaleniem jednego języka.
Minimalna zalecana rozdzielczość dla jakościowego OCR to 300 DPI. Przy tej rozdzielczości większość drukowanych krojów pisma jest wystarczająco dobrze zdefiniowana, aby silnik OCR mógł je poprawnie rozpoznać. Przy 150 DPI dokładność wyraźnie spada, szczególnie w przypadku małego tekstu podstawowego (10–12 punktów). Przy 600 DPI jakość jest doskonała, ale rozmiar pliku skanowania jest znacznie większy bez proporcjonalnej poprawy dokładności OCR dla normalnego tekstu. Dla dokumentów z mikrodrukiem (bardzo małym tekstem, np. przypisami w dokumentach prawnych) konieczne może być skanowanie w rozdzielczości 400–600 DPI.
Mieszane pliki PDF zawierające strony z natywnym tekstem i strony skanowane są powszechne — na przykład umowa, w której pierwsze strony to cyfrowo wygenerowany tekst, a ostatnia strona to zeskanowany podpis. Nowoczesne silniki OCR mogą automatycznie wykryć, które strony mają prawdziwy tekst, a które są obrazami, stosując OCR tylko tam, gdzie jest to konieczne. Pozwala to uniknąć zbędnego ponownego przetwarzania stron, które mają już czytelny tekst.
OCR PDF: jak sprawić, aby skanowany dokument był przeszukiwalny za pomocą technologii optycznego rozpoznawania
OCR (optyczne rozpoznawanie znaków) stosowane do skanowanych plików PDF to jedna z najbardziej przełomowych technologii w zarządzaniu dokumentami. Przed OCR fizyczne dokumenty zeskanowane do formatu PDF były niemymi obrazami: nie można było wyszukać słowa, zaznaczyć tekstu ani sprawić, aby czytnik ekranu je odczytał. OCR przekształca te obrazy stron w dokumenty z prawdziwym tekstem, zachowując oryginalny wygląd wizualny. Historia OCR jest długa: pierwsze automatyczne systemy rozpoznawania znaków dla poczty pocztowej datują się od lat 50. Pierwsze komercyjne produkty na PC pojawiły się w latach 80. — OmniPage (Caere Corporation, 1988) i FineReader (ABBYY, 1993). Rewolucja nastąpiła wraz z silnikami opartymi na uczeniu maszynowym: Tesseract, pierwotnie opracowany przez HP Research Laboratories w Bristolu w latach 1985–1995, został przejęty przez Google w 2006 roku i opublikowany jako open source. Wersja 4 (2018) wprowadziła architektury LSTM, które dramatycznie poprawiły dokładność. Wersja 5 (listopad 2021) dopracowała te modele do osiągnięcia dokładności 98–99% w optymalnych warunkach.
Stosowanie OCR do skanowanych plików PDF ma dwa tryby wyjściowe o różnych zastosowaniach. Pierwszym jest przeszukiwalny PDF (zwany też PDF/OCR): wynikowy plik PDF zachowuje oryginalny obraz dokumentu i dodaje niewidoczną warstwę tekstu umożliwiającą wyszukiwanie, zaznaczanie tekstu i dostępność, bez zmiany wyglądu wizualnego. Ten tryb jest właściwy dla dokumentów o wartości prawnej lub archiwalnej, gdzie oryginalny obraz musi być zachowany w całości — podpisane umowy, dokumenty notarialne, faktury z nagłówkiem firmowym, dokumentacja medyczna. Drugi tryb to ekstrakcja czystego tekstu (TXT): wyodrębniany jest tylko rozpoznany tekst, bez zachowywania formatu wizualnego. Ten tryb jest bardziej odpowiedni do analizy tekstu, zasilania systemów wyszukiwania lub przetwarzania treści narzędziami do przetwarzania danych. Standard PDF/A-3 (ISO 19005-3, opublikowany w 2012 roku) umożliwia osadzanie tekstu OCR w pliku PDF, dzięki czemu dokument jest jednocześnie wiernym wizualnym archiwum i dostępnym tekstem — jest to zalecany format dla archiwów instytucjonalnych.
Dokładność OCR zależy od wielu czynników, na które użytkownik ma wpływ. Rozdzielczość skanera jest najważniejsza: 300 DPI daje optymalne wyniki dla większości krojów pisma o rozmiarze 10–12 punktów. Kolor tła dokumentu ma znaczenie: OCR działa najlepiej na białych tłach z czarnym tekstem o wysokim kontraście. Dokumenty z kolorowymi tłami, znakami wodnymi, nakładającymi się pieczęciami lub tekstem drukowanym na obrazach tła mają niższą dokładność. Jakość oryginalnego papieru i wiek dokumentu również mają znaczenie: dokument z lat 70. wydrukowany na pożółkłym papierze z wyblakłym atramentem będzie miał niższą dokładność niż dokument wydrukowany w 2020 roku. Dla zdegradowanych dokumentów historycznych techniki wstępnego przetwarzania obrazu (wzmocnienie kontrastu, usuwanie plam, korekcja pochylenia) znacząco poprawiają dokładność OCR. Convertir.ai stosuje automatyczne przetwarzanie wstępne przed OCR, aby zmaksymalizować dokładność dla większości typowych skanowanych dokumentów.