OCR PDF Онлайн — Сканированный PDF в искомый текст
Конвертируйте отсканированные PDF в текст, доступный для поиска и выделения, с помощью OCR. Бесплатно, без регистрации.
.pdf · до 2 ГБ
Для чего используется OCR
OCR PDF: сделайте любой отсканированный документ доступным для поиска
Документы с поиском
Конвертируйте отсканированные файлы в PDF, в которых можно искать слова, выделять текст и копировать фрагменты.
Исторические архивы
Оцифровывайте и делайте доступной историческую документацию, бумажные дела и физические архивы контрактов.
Доступность
Документы с OCR-слоем доступны программам чтения с экрана и соответствуют нормам цифровой доступности.
Многоязычность
Поддержка более 100 языков, включая русский, английский, арабский, китайский и другие с Tesseract 5.
Как это работает
Три шага — никаких сложностей
Загрузите отсканированный PDF
Перетащите или выберите отсканированный PDF. OCR работает с PDF-файлами, являющимися изображениями — физически отсканированными документами, фотографиями документов, оцифрованными факсами.
Распознавание OCR
Движок OCR анализирует каждую страницу как изображение, идентифицирует символы и создаёт невидимый текстовый слой, наложенный на исходное изображение документа.
Скачайте PDF с поиском по тексту
Итоговый PDF выглядит идентично оригиналу, но теперь в нём можно искать текст, выделять и копировать его, а информация доступна индексаторам и программам чтения с экрана.
FAQ
Остались вопросы?
OCR (оптическое распознавание символов) — технология, преобразующая изображения текста в цифровой текст. Процесс включает три основных этапа: предобработка изображения (исправление наклона, удаление шума, бинаризация), сегментация (определение строк, слов и отдельных символов) и распознавание (сравнение каждого символа с эталонными моделями для определения наиболее вероятного символа). Современные OCR-движки на основе LSTM (Long Short-Term Memory) превосходят классические методы на основе шаблонов по точности, особенно на документах с нестандартными шрифтами, наклоненным или ухудшенным текстом.
Tesseract 5, наиболее широко используемый открытый OCR-движок (первоначально разработан HP в 1980-х, приобретён Google и опубликован под лицензией Apache 2.0, версия 5.0 на основе LSTM вышла в ноябре 2021 года), достигает точности 98–99% на печатных документах, отсканированных при 300 DPI с хорошим качеством. Документы со стандартными шрифтами (Times New Roman, Arial, Calibri) имеют очень высокую точность. Документы с декоративными шрифтами, очень мелким текстом (менее 8 пт) или деградацией из-за возраста имеют более низкую точность.
OCR в доступный для поиска PDF (также называемый PDF с OCR-слоем) сохраняет исходное изображение документа и добавляет невидимый текстовый слой, делающий документ доступным для поиска. Визуальный вид идентичен исходному скану. OCR в текст извлекает только распознанный текст без сохранения исходного изображения. Для документов с юридической ценностью оригинала (подписанные контракты, нотариальные документы, счета с печатями) PDF с поиском по тексту — правильный вариант. Для извлечения данных или текстового анализа прямое извлечение в TXT эффективнее.
Да. Tesseract 5 поддерживает более 100 языков, включая английский, русский, французский, немецкий, португальский, итальянский, упрощённый и традиционный китайский, японский, арабский, хинди и многие другие. Для документов со смешанными языками на одной странице можно активировать режим многоязычного распознавания, улучшающий точность по сравнению с фиксацией одного языка.
Минимальное рекомендуемое разрешение для качественного OCR — 300 DPI. При этом разрешении большинство печатных шрифтов достаточно чёткие для правильного распознавания движком. При 150 DPI точность заметно падает, особенно для мелкого основного текста (10–12 пт). При 600 DPI качество отличное, но размер файла сканирования значительно больше без пропорционального улучшения точности OCR для обычного текста. Для документов с мелкой печатью (очень мелкий текст, например сноски в юридических документах) может потребоваться сканирование при 400–600 DPI.
Смешанные PDF с нативным текстом на одних страницах и отсканированными изображениями на других — распространённое явление. Например, контракт, где первые страницы созданы цифровым способом, а последняя страница — отсканированная подпись. Современные OCR-движки могут автоматически определить, на каких страницах есть реальный текст, а на каких — изображения, применяя OCR только там, где это необходимо. Это позволяет избежать лишней обработки страниц с уже читаемым текстом.
OCR PDF: как сделать отсканированный документ доступным для поиска с помощью оптического распознавания
OCR (оптическое распознавание символов) для отсканированных PDF — одна из наиболее преобразующих технологий в управлении документами. До OCR физические документы, отсканированные в PDF, были «немыми» изображениями: нельзя было найти слово, выделить текст, нельзя было прочитать программой чтения с экрана. OCR преобразует эти изображения страниц в документы с реальным текстом, сохраняя при этом исходный визуальный вид. История OCR насчитывает десятилетия: первые системы автоматического распознавания символов для почтовых отправлений появились в 1950-х. Первые коммерческие продукты для ПК пришли в 1980-х с OmniPage (Caere, 1988) и FineReader (ABBYY, 1993). Революция произошла с движками на основе машинного обучения: Tesseract, разработанный в HP Research в Бристоле между 1985 и 1995 годами, был приобретён Google в 2006 году и опубликован с открытым исходным кодом. Версия 4 (2018) ввела архитектуры LSTM. Версия 5 (ноябрь 2021) достигает точности 98–99% в оптимальных условиях.
Применение OCR к отсканированным PDF имеет два режима вывода. Первый — доступный для поиска PDF (PDF/OCR): итоговый PDF сохраняет исходное изображение и добавляет невидимый текстовый слой для поиска, выделения и доступности без изменения визуального вида. Этот режим подходит для документов с юридической или архивной ценностью — подписанных контрактов, нотариальных документов, фирменных счетов, медицинских записей. Второй режим — чистое извлечение текста (TXT): извлекается только распознанный текст, без сохранения визуального формата. Этот режим больше подходит для текстового анализа, наполнения поисковых систем или обработки контента инструментами обработки данных. Стандарт PDF/A-3 (ISO 19005-3, 2012) позволяет встраивать OCR-текст в PDF так, чтобы документ был одновременно точным визуальным архивом и доступным текстом.
Точность OCR зависит от нескольких факторов, которыми могут управлять пользователи. Разрешение сканера наиболее важно: 300 DPI даёт оптимальные результаты для большинства шрифтов 10–12 пт. OCR лучше всего работает на белом фоне с высококонтрастным чёрным текстом. Документы с цветным фоном, водяными знаками, перекрывающимися штампами или текстом поверх фоновых изображений имеют более низкую точность. Качество исходной бумаги и возраст документа тоже важны. Для деградировавших исторических документов методы предобработки изображений (улучшение контраста, удаление пятен, исправление наклона) значительно повышают точность OCR. Convertir.ai применяет автоматическую предобработку перед OCR для максимизации точности на большинстве распространённых отсканированных документов.