OCR PDF Online — Zeskanowany PDF na przeszukiwalny tekst

Konwertuj skanowane pliki PDF do tekstu z możliwością wyszukiwania i zaznaczania za pomocą OCR. Bezpłatnie, bez rejestracji.

Przeciągnij PDF tutaj

.pdf · do 2 GB

Za darmoBez rejestracjiBez znaku wodnegoOCR w zestawie

Do czego służy OCR

OCR PDF: spraw, aby każdy skanowany dokument był przeszukiwalny

Przeszukiwalne dokumenty

Przekształcaj skanowane pliki w PDF-y, w których możesz wyszukiwać słowa, zaznaczać tekst i kopiować fragmenty.

Archiwa historyczne

Digitalizuj i udostępniaj dokumentację historyczną, papierowe akta i fizyczne archiwa umów.

Dostępność

Dokumenty z warstwą OCR są dostępne dla czytników ekranu i spełniają wymogi regulacji dotyczących dostępności cyfrowej.

Wielojęzyczność

Obsługa ponad 100 języków, w tym polskiego, angielskiego, arabskiego, chińskiego, rosyjskiego i wielu innych, dzięki Tesseract 5.

Jak to działa

Trzy kroki, żadnych komplikacji

Wgraj swój skanowany plik PDF

Przeciągnij lub wybierz skanowany plik PDF. OCR działa na plikach PDF będących obrazami — fizycznie zeskanowanych dokumentach, fotografiach dokumentów, zdigitalizowanych faksach.

Rozpoznawanie OCR

Silnik OCR analizuje każdą stronę jako obraz, identyfikuje znaki i generuje niewidoczną warstwę tekstu nałożoną na oryginalny obraz dokumentu.

Pobierz przeszukiwalny plik PDF

Wynikowy plik PDF wygląda identycznie jak oryginał, ale możesz teraz przeszukiwać tekst, zaznaczać i kopiować go, a informacje są dostępne dla indeksatorów i czytników ekranu.

FAQ

Masz pytania?

Czym jest OCR i jak działa?

OCR (optyczne rozpoznawanie znaków) to technologia przekształcająca obrazy tekstu w cyfrowo zakodowany tekst. Proces przebiega w trzech głównych etapach: wstępne przetwarzanie obrazu (korekcja pochylenia, usuwanie szumów, binaryzacja), segmentacja (identyfikacja linii tekstu, słów i pojedynczych znaków) oraz rozpoznawanie (porównywanie każdego znaku z modelami referencyjnymi w celu wyznaczenia najbardziej prawdopodobnego znaku). Nowoczesne silniki OCR oparte na rekurencyjnych sieciach neuronowych LSTM (Long Short-Term Memory) przewyższają klasyczne metody oparte na szablonach pod względem dokładności, szczególnie w przypadku dokumentów z nieregularnymi krojami pisma, pochylonym lub zdegradowanym tekstem.

Jaką dokładność osiąga OCR w przypadku dokumentów w języku angielskim?

Tesseract 5, najszerzej stosowany silnik OCR open source (pierwotnie opracowany przez HP w latach 80., przejęty przez Google i opublikowany na licencji Apache 2.0, z opartą na LSTM wersją 5.0 wydaną w listopadzie 2021), osiąga dokładność 98–99% na drukowanych dokumentach w języku angielskim zeskanowanych w 300 DPI dobrej jakości. Dokumenty ze standardowymi krojami pisma (Times New Roman, Arial, Calibri) mają bardzo wysoką dokładność rozpoznawania. Dokumenty z ozdobnymi krojami pisma, bardzo małym tekstem (poniżej 8 punktów) lub degradacją z wiekiem mają niższą dokładność.

Jaka jest różnica między OCR do przeszukiwalnego PDF a OCR do tekstu?

OCR do przeszukiwalnego PDF (zwanego też PDF z warstwą OCR lub PDF z osadzonym tekstem) zachowuje oryginalny obraz dokumentu i dodaje niewidoczną warstwę tekstu, która umożliwia przeszukiwanie dokumentu. Wygląd wizualny jest identyczny z oryginalnym skanem. OCR do tekstu wyodrębnia wyłącznie rozpoznany tekst bez zachowywania oryginalnego obrazu. Dla dokumentów, których oryginalny obraz ma wartość prawną (podpisane umowy, dokumenty notarialne, faktury z nagłówkiem firmowym), przeszukiwalny PDF jest właściwym rozwiązaniem. Do ekstrakcji danych lub analizy tekstu bezpośrednia ekstrakcja do TXT jest bardziej wydajna.

Czy działa z dokumentami w wielu językach?

Tak. Tesseract 5 obsługuje ponad 100 języków, w tym angielski, hiszpański, francuski, niemiecki, portugalski, włoski, rosyjski, chiński uproszczony i tradycyjny, japoński, arabski, hindi i wiele innych. Dla dokumentów łączących języki na tej samej stronie można aktywować tryb rozpoznawania wielojęzycznego, który poprawia dokładność w porównaniu z ustaleniem jednego języka.

Jaka rozdzielczość skanera jest potrzebna do dobrej dokładności OCR?

Minimalna zalecana rozdzielczość dla jakościowego OCR to 300 DPI. Przy tej rozdzielczości większość drukowanych krojów pisma jest wystarczająco dobrze zdefiniowana, aby silnik OCR mógł je poprawnie rozpoznać. Przy 150 DPI dokładność wyraźnie spada, szczególnie w przypadku małego tekstu podstawowego (10–12 punktów). Przy 600 DPI jakość jest doskonała, ale rozmiar pliku skanowania jest znacznie większy bez proporcjonalnej poprawy dokładności OCR dla normalnego tekstu. Dla dokumentów z mikrodrukiem (bardzo małym tekstem, np. przypisami w dokumentach prawnych) konieczne może być skanowanie w rozdzielczości 400–600 DPI.

Czy można zastosować OCR do plików PDF, które już zawierają pewien tekst?

Mieszane pliki PDF zawierające strony z natywnym tekstem i strony skanowane są powszechne — na przykład umowa, w której pierwsze strony to cyfrowo wygenerowany tekst, a ostatnia strona to zeskanowany podpis. Nowoczesne silniki OCR mogą automatycznie wykryć, które strony mają prawdziwy tekst, a które są obrazami, stosując OCR tylko tam, gdzie jest to konieczne. Pozwala to uniknąć zbędnego ponownego przetwarzania stron, które mają już czytelny tekst.