OCR PDF en Ligne — PDF Scanné en Texte Recherchable
Transforme tes PDF scannés en documents où tu peux rechercher et sélectionner du texte grâce à la ROC. Gratuit, sans inscription.
.pdf · jusqu'à 2 Go
À quoi sert la ROC
ROC PDF : rendre tout document scanné indexable
Documents indexables
Transforme tes fichiers scannés en PDF où tu peux rechercher des mots, sélectionner du texte et copier des passages.
Archives historiques
Numérise et rends accessibles la documentation historique, les dossiers papier et les archives de contrats physiques.
Accessibilité
Les documents avec une couche ROC sont accessibles aux lecteurs d'écran et conformes aux réglementations d'accessibilité numérique.
Multilingue
Prise en charge de plus de 100 langues dont le français, l'arabe, le chinois, le russe et bien d'autres avec Tesseract 5.
Comment ça marche
Trois étapes, sans complications
Importe ton PDF scanné
Glisse ou sélectionne le PDF scanné. La ROC fonctionne sur les PDF qui sont des images : documents physiquement scannés, photos de documents, fax numérisés.
Reconnaissance optique
Le moteur ROC analyse chaque page comme une image, identifie les caractères et génère une couche de texte invisible superposée à l'image originale du document.
Télécharge le PDF indexable
Le PDF obtenu est visuellement identique à l'original, mais tu peux désormais y chercher du texte, sélectionner et copier des passages, et l'information est accessible aux indexeurs et aux lecteurs d'écran.
FAQ
Des questions ?
La ROC (Reconnaissance Optique de Caractères) est la technologie qui convertit des images de texte en texte encodé numériquement. Le processus comprend trois grandes étapes : le prétraitement de l'image (correction de l'inclinaison, suppression du bruit, binarisation), la segmentation (identification des lignes de texte, des mots et des caractères individuels), et la reconnaissance (comparaison de chaque caractère avec des modèles de référence pour déterminer le caractère le plus probable). Les moteurs ROC modernes basés sur des réseaux de neurones récurrents LSTM surpassent les méthodes classiques par gabarit en précision, notamment sur les documents aux polices irrégulières, au texte incliné ou dégradé.
Tesseract 5, le moteur ROC open source le plus utilisé (développé à l'origine par HP dans les années 1980, repris par Google et publié sous licence Apache 2.0, avec la version LSTM 5.0 lancée en novembre 2021), atteint des taux de précision de 98 à 99 % sur des documents imprimés scannés à 300 DPI avec une bonne qualité. Les documents avec des polices standard (Times New Roman, Arial, Calibri) obtiennent de très bons résultats. Les documents aux polices décoratives, au texte très petit (moins de 8 points) ou dégradés par l'âge ont une précision moindre.
La ROC vers PDF indexable (aussi appelé PDF avec couche ROC ou PDF à texte intégré) conserve l'image originale du document et ajoute une couche de texte invisible qui rend le document indexable. L'apparence visuelle est identique au scan d'origine. La ROC vers texte extrait uniquement le texte reconnu sans conserver l'image d'origine. Pour les documents dont l'image originale a une valeur légale (contrats signés, actes notariés, factures tamponnées), le PDF indexable est le bon choix. Pour l'extraction de données ou l'analyse textuelle, l'extraction directe en TXT est plus efficace.
Oui. Tesseract 5 prend en charge plus de 100 langues, dont le français, l'anglais, l'espagnol, l'allemand, le portugais, l'italien, le russe, le chinois simplifié et traditionnel, le japonais, l'arabe, le hindi, et bien d'autres. Pour les documents mélangeant plusieurs langues sur la même page, le mode de reconnaissance multilingue peut être activé, ce qui améliore la précision par rapport à l'utilisation d'une seule langue fixée.
La résolution minimale recommandée pour une ROC de qualité est de 300 DPI. À cette résolution, la plupart des polices imprimées sont suffisamment définies pour que le moteur ROC les reconnaisse correctement. À 150 DPI, la précision baisse sensiblement, notamment sur les petits corps (10 à 12 points). À 600 DPI, la qualité est excellente mais la taille du fichier est bien plus grande sans amélioration proportionnelle de la précision ROC pour du texte normal. Pour les documents contenant du microprint (texte très petit comme les notes de bas de page dans des documents juridiques), scanner à 400 à 600 DPI peut être nécessaire.
Les PDF mixtes contenant des pages avec du texte natif et des pages scannées sont courants : par exemple, un contrat dont les premières pages sont du texte généré numériquement et la dernière page est une signature scannée. Les moteurs ROC modernes peuvent détecter automatiquement quelles pages ont du vrai texte et lesquelles sont des images, en appliquant la ROC uniquement là où c'est nécessaire. Cela évite de retraiter inutilement des pages qui ont déjà du texte lisible.
ROC PDF : comment rendre un document scanné indexable grâce à la reconnaissance optique de caractères
La ROC (Reconnaissance Optique de Caractères) appliquée aux PDF scannés est l'une des technologies les plus transformatrices en gestion documentaire. Avant la ROC, les documents physiques scannés en PDF étaient des images muettes : impossible d'y chercher un mot, de sélectionner du texte ou de les faire lire par un lecteur d'écran. La ROC transforme ces images de pages en documents avec du vrai texte, tout en conservant l'apparence visuelle d'origine. L'histoire de la ROC est longue : les premiers systèmes de reconnaissance automatique de caractères pour le courrier postal datent des années 1950. Les premiers produits commerciaux sur PC sont arrivés dans les années 1980 avec OmniPage (Caere Corporation, 1988) et FineReader (ABBYY, 1993). La révolution est venue avec les moteurs basés sur l'apprentissage automatique : Tesseract, développé à l'origine par HP Research Laboratories à Bristol entre 1985 et 1995, a été repris par Google en 2006 et publié en open source. La version 4 (2018) a introduit des architectures LSTM qui ont considérablement amélioré la précision. La version 5 (novembre 2021) a affiné ces modèles pour atteindre des taux de précision de 98 à 99 % dans des conditions optimales.
L'application de la ROC aux PDF scannés propose deux modes de sortie aux usages bien distincts. Le premier est le PDF indexable (aussi appelé PDF/ROC) : le PDF obtenu conserve l'image originale du document et ajoute une couche de texte invisible qui permet la recherche, la sélection de texte et l'accessibilité, sans modifier l'apparence visuelle. Ce mode convient aux documents à valeur légale ou archivistique où l'image originale doit être préservée intacte : contrats signés, actes notariés, factures à en-tête, dossiers médicaux. Le second mode est l'extraction de texte pur (TXT) : seul le texte reconnu est extrait, sans conserver le format visuel. Ce mode est plus adapté à l'analyse textuelle, à l'alimentation de moteurs de recherche ou au traitement de contenu avec des outils d'analyse de données. La norme PDF/A-3 (ISO 19005-3, publiée en 2012) permet d'intégrer le texte ROC dans le PDF afin que le document soit à la fois une archive visuelle fidèle et un texte accessible, et constitue le format recommandé pour les archives institutionnelles.
La précision de la ROC dépend de plusieurs facteurs. La résolution du scanner est la plus importante : 300 DPI donne des résultats optimaux pour la plupart des polices de 10 à 12 points. La couleur du fond compte aussi : la ROC fonctionne mieux sur des fonds blancs avec du texte noir à fort contraste. Les documents à fond coloré, avec des filigranes ou des tampons chevauchant le texte ont une précision moindre. La qualité du papier et l'âge du document jouent également un rôle : un document des années 1970 sur papier jauni avec encre délavée aura une précision plus faible qu'un document récent. Pour les documents historiques détériorés, des techniques de prétraitement d'image (amélioration du contraste, suppression des taches, correction de l'inclinaison) améliorent significativement les résultats. Convertir.ai applique un prétraitement automatique avant la ROC pour maximiser la précision sur les documents scannés les plus courants.