OCR PDF Онлайн — Сканированный PDF в искомый текст

Конвертируйте отсканированные PDF в текст, доступный для поиска и выделения, с помощью OCR. Бесплатно, без регистрации.

Перетащите PDF сюда

.pdf · до 2 ГБ

БесплатноБез регистрацииБез водяного знакаOCR включён

Для чего используется OCR

OCR PDF: сделайте любой отсканированный документ доступным для поиска

Документы с поиском

Конвертируйте отсканированные файлы в PDF, в которых можно искать слова, выделять текст и копировать фрагменты.

Исторические архивы

Оцифровывайте и делайте доступной историческую документацию, бумажные дела и физические архивы контрактов.

Доступность

Документы с OCR-слоем доступны программам чтения с экрана и соответствуют нормам цифровой доступности.

Многоязычность

Поддержка более 100 языков, включая русский, английский, арабский, китайский и другие с Tesseract 5.

Как это работает

Три шага — никаких сложностей

Загрузите отсканированный PDF

Перетащите или выберите отсканированный PDF. OCR работает с PDF-файлами, являющимися изображениями — физически отсканированными документами, фотографиями документов, оцифрованными факсами.

Распознавание OCR

Движок OCR анализирует каждую страницу как изображение, идентифицирует символы и создаёт невидимый текстовый слой, наложенный на исходное изображение документа.

Скачайте PDF с поиском по тексту

Итоговый PDF выглядит идентично оригиналу, но теперь в нём можно искать текст, выделять и копировать его, а информация доступна индексаторам и программам чтения с экрана.

FAQ

Остались вопросы?

Что такое OCR и как он работает?

OCR (оптическое распознавание символов) — технология, преобразующая изображения текста в цифровой текст. Процесс включает три основных этапа: предобработка изображения (исправление наклона, удаление шума, бинаризация), сегментация (определение строк, слов и отдельных символов) и распознавание (сравнение каждого символа с эталонными моделями для определения наиболее вероятного символа). Современные OCR-движки на основе LSTM (Long Short-Term Memory) превосходят классические методы на основе шаблонов по точности, особенно на документах с нестандартными шрифтами, наклоненным или ухудшенным текстом.

Какова точность OCR на русских и английских документах?

Tesseract 5, наиболее широко используемый открытый OCR-движок (первоначально разработан HP в 1980-х, приобретён Google и опубликован под лицензией Apache 2.0, версия 5.0 на основе LSTM вышла в ноябре 2021 года), достигает точности 98–99% на печатных документах, отсканированных при 300 DPI с хорошим качеством. Документы со стандартными шрифтами (Times New Roman, Arial, Calibri) имеют очень высокую точность. Документы с декоративными шрифтами, очень мелким текстом (менее 8 пт) или деградацией из-за возраста имеют более низкую точность.

В чём разница между OCR в доступный для поиска PDF и OCR в текст?

OCR в доступный для поиска PDF (также называемый PDF с OCR-слоем) сохраняет исходное изображение документа и добавляет невидимый текстовый слой, делающий документ доступным для поиска. Визуальный вид идентичен исходному скану. OCR в текст извлекает только распознанный текст без сохранения исходного изображения. Для документов с юридической ценностью оригинала (подписанные контракты, нотариальные документы, счета с печатями) PDF с поиском по тексту — правильный вариант. Для извлечения данных или текстового анализа прямое извлечение в TXT эффективнее.

Работает ли с документами на нескольких языках?

Да. Tesseract 5 поддерживает более 100 языков, включая английский, русский, французский, немецкий, португальский, итальянский, упрощённый и традиционный китайский, японский, арабский, хинди и многие другие. Для документов со смешанными языками на одной странице можно активировать режим многоязычного распознавания, улучшающий точность по сравнению с фиксацией одного языка.

Какое разрешение сканера нужно для хорошей точности OCR?

Минимальное рекомендуемое разрешение для качественного OCR — 300 DPI. При этом разрешении большинство печатных шрифтов достаточно чёткие для правильного распознавания движком. При 150 DPI точность заметно падает, особенно для мелкого основного текста (10–12 пт). При 600 DPI качество отличное, но размер файла сканирования значительно больше без пропорционального улучшения точности OCR для обычного текста. Для документов с мелкой печатью (очень мелкий текст, например сноски в юридических документах) может потребоваться сканирование при 400–600 DPI.

Можно ли применять OCR к PDF, в которых уже есть текст?

Смешанные PDF с нативным текстом на одних страницах и отсканированными изображениями на других — распространённое явление. Например, контракт, где первые страницы созданы цифровым способом, а последняя страница — отсканированная подпись. Современные OCR-движки могут автоматически определить, на каких страницах есть реальный текст, а на каких — изображения, применяя OCR только там, где это необходимо. Это позволяет избежать лишней обработки страниц с уже читаемым текстом.