DocumentosImágenesMediaHerramientas PDF

OCR de PDF

Convierte PDFs escaneados a texto buscable y seleccionable mediante OCR. Gratis, sin registro.

Arrastra tu PDF aquí

.pdf · hasta 2 GB

GratisSin registroSin marca de aguaOCR incluido

OCR PDF: hace buscable cualquier documento escaneado

Documentos buscables

Convierte archivos escaneados en PDFs donde puedes buscar palabras, seleccionar texto y copiar fragmentos.

Archivos históricos

Digitaliza y hace accesible documentación histórica, expedientes en papel y archivos de contratos físicos.

Accesibilidad

Los documentos con capa OCR son accesibles para lectores de pantalla y conformes con normativas de accesibilidad digital.

Multi-idioma

Soporte para más de 100 idiomas incluyendo español, inglés, árabe, chino, ruso y más con Tesseract 5.

Tres pasos, sin complicaciones

1

Sube tu PDF escaneado

Arrastra o selecciona el PDF escaneado. El OCR funciona sobre PDFs que son imágenes — documentos físicos escaneados, fotografías de documentos, faxes digitalizados.

2

Reconocimiento OCR

El motor OCR analiza cada página como imagen, identifica los caracteres y genera una capa de texto invisible superpuesta sobre la imagen original del documento.

3

Descarga el PDF con texto buscable

El PDF resultante tiene el mismo aspecto visual que el original, pero ahora puedes buscar texto en él, seleccionar y copiar texto, y la información es accesible para indexadores y lectores de pantalla.

¿Tienes dudas?

OCR (Optical Character Recognition, Reconocimiento Óptico de Caracteres) es la tecnología que convierte imágenes de texto en texto codificado digitalmente. El proceso tiene tres etapas principales: preprocesamiento de la imagen (corrección de inclinación, eliminación de ruido, binarización), segmentación (identificación de líneas de texto, palabras y caracteres individuales) y reconocimiento (comparación de cada carácter con modelos de referencia para determinar el carácter más probable). Los motores OCR modernos basados en redes neuronales recurrentes LSTM (Long Short-Term Memory) superan en precisión a los métodos clásicos basados en plantillas, especialmente en documentos con tipografías irregulares, texto inclinado o degradado.

Tesseract 5, el motor OCR open source más utilizado (desarrollado originalmente por HP en los años 80, adquirido por Google y publicado bajo licencia Apache 2.0, con la versión 5.0 basada en LSTM lanzada en noviembre de 2021), alcanza tasas de precisión del 98-99% en documentos impresos en español escaneados a 300 DPI con buena calidad. El español tiene soporte completo en Tesseract con los modelos entrenados para español latinoamericano y español castellano. Los documentos con tipografías estándar (Times New Roman, Arial, Calibri) tienen tasas de precisión muy altas. Documentos con tipografías decorativas, texto muy pequeño (menor de 8 puntos) o degradado por el paso del tiempo tienen tasas de precisión menores.

El OCR a PDF buscable (también llamado PDF/A con capa OCR o PDF con texto incrustado) mantiene la imagen original del documento y añade una capa de texto invisible superpuesta que hace el documento buscable. El aspecto visual es idéntico al original escaneado. El OCR a texto extrae solo el texto reconocido sin preservar la imagen original. Para archivos donde la imagen original tiene valor legal (contratos firmados, documentos notariales, facturas con sello) el PDF buscable es la opción correcta. Para extracción de datos o análisis de texto, la extracción directa a TXT es más eficiente.

Sí. Tesseract 5 soporta más de 100 idiomas incluyendo español, inglés, francés, alemán, portugués, italiano, ruso, chino simplificado y tradicional, japonés, árabe, hindi y muchos más. Para documentos que mezclan idiomas en la misma página (por ejemplo, un contrato con cláusulas en español e inglés), se puede activar el reconocimiento multi-idioma que mejora la precisión en comparación con fijar un solo idioma.

La resolución mínima recomendada para OCR de calidad es 300 DPI. A esta resolución, la mayoría de tipografías impresas están suficientemente definidas para que el motor OCR las reconozca correctamente. A 150 DPI la precisión cae notablemente, especialmente con texto de cuerpo pequeño (10-12 puntos). A 600 DPI la calidad es excelente pero el tamaño de archivo del escáner es mucho mayor sin mejora proporcional en la precisión OCR para texto normal. Para documentos con microimpresión (texto muy pequeño como notas al pie en documentos legales) puede ser necesario escanear a 400-600 DPI.

Los PDFs mixtos que tienen páginas con texto nativo y páginas escaneadas son comunes — por ejemplo, un contrato donde las primeras páginas son texto generado digitalmente y la última es una firma escaneada. Los motores OCR modernos pueden detectar automáticamente qué páginas tienen texto real y cuáles son imágenes, aplicando OCR solo donde es necesario. Esto evita el re-procesamiento innecesario de páginas que ya tienen texto legible.

OCR PDF: cómo hacer buscable un documento escaneado con tecnología de reconocimiento óptico

El OCR (Reconocimiento Óptico de Caracteres) aplicado a PDFs escaneados es una de las tecnologías más transformadoras en la gestión documental. Antes del OCR, los documentos físicos escaneados a PDF eran imágenes mudas: no podías buscar una palabra, no podías seleccionar texto, no podías hacer que un lector de pantalla los leyera. El OCR transforma estas imágenes de páginas en documentos con texto real, manteniendo el aspecto visual original. La historia del OCR es larga: los primeros sistemas automáticos de reconocimiento de caracteres para correo postal datan de los años 50. Los primeros productos comerciales para PC llegaron en los años 80 con OmniPage (Caere Corporation, 1988) y FineReader (ABBYY, 1993). La revolución llegó con los motores basados en aprendizaje automático: Tesseract, desarrollado originalmente por HP Research Laboratories en Bristol entre 1985 y 1995, fue adquirido por Google en 2006 y publicado como open source. La versión 4 (2018) introdujo arquitecturas LSTM que mejoraron la precisión de forma drástica. La versión 5 (noviembre 2021) refinó estos modelos hasta alcanzar precisiones del 98-99% en condiciones óptimas.

La aplicación de OCR a PDFs escaneados tiene dos modalidades de salida con casos de uso distintos. La primera es el PDF buscable (searchable PDF o PDF/OCR): el PDF resultante mantiene la imagen original del documento y añade una capa de texto invisible que permite búsqueda, selección de texto y accesibilidad, sin alterar el aspecto visual. Esta modalidad es la correcta para documentos con valor legal o archivístico donde la imagen original debe preservarse íntegramente — contratos firmados, documentos notariales, facturas con membrete, expedientes médicos. La segunda modalidad es la extracción de texto puro (TXT): se extrae solo el texto reconocido, perdiendo el formato visual. Esta modalidad es más adecuada para análisis de texto, alimentar sistemas de búsqueda o procesar el contenido con herramientas de procesamiento de datos. El estándar PDF/A-3 (ISO 19005-3, publicado en 2012) permite incrustar el texto OCR en el PDF de forma que el documento sea a la vez archivo visual fiel y texto accesible, y es el formato recomendado para archivos institucionales.

La precisión del OCR depende de múltiples factores que el usuario puede controlar. La resolución del escáner es el más importante: 300 DPI produce resultados óptimos para la mayoría de tipografías de 10-12 puntos. El color del fondo del documento importa: el OCR funciona mejor sobre fondos blancos con texto negro de alto contraste. Los documentos con fondos de color, marcas de agua, sellos superpuestos o texto impreso sobre imágenes de fondo tienen menor precisión. La calidad del papel original y la antigüedad del documento también influyen: un documento de los años 70 impreso en papel que ha amarillado y con tinta que se ha desvanecido tendrá menor precisión que un documento impreso en 2020. Para documentos históricos deteriorados, técnicas de preprocesamiento de imagen (aumento de contraste, eliminación de manchas, corrección de inclinación) mejoran significativamente la precisión OCR. Convertir.ai aplica preprocesamiento automático antes del OCR para maximizar la precisión en la mayoría de documentos escaneados comunes.