OCR PDF en Ligne — PDF Scanné en Texte Recherchable

Transforme tes PDF scannés en documents où tu peux rechercher et sélectionner du texte grâce à la ROC. Gratuit, sans inscription.

Glissez votre PDF ici

.pdf · jusqu'à 2 Go

GratuitSans inscriptionSans filigraneOCR inclus

À quoi sert la ROC

ROC PDF : rendre tout document scanné indexable

Documents indexables

Transforme tes fichiers scannés en PDF où tu peux rechercher des mots, sélectionner du texte et copier des passages.

Archives historiques

Numérise et rends accessibles la documentation historique, les dossiers papier et les archives de contrats physiques.

Accessibilité

Les documents avec une couche ROC sont accessibles aux lecteurs d'écran et conformes aux réglementations d'accessibilité numérique.

Multilingue

Prise en charge de plus de 100 langues dont le français, l'arabe, le chinois, le russe et bien d'autres avec Tesseract 5.

Comment ça marche

Trois étapes, sans complications

Importe ton PDF scanné

Glisse ou sélectionne le PDF scanné. La ROC fonctionne sur les PDF qui sont des images : documents physiquement scannés, photos de documents, fax numérisés.

Reconnaissance optique

Le moteur ROC analyse chaque page comme une image, identifie les caractères et génère une couche de texte invisible superposée à l'image originale du document.

Télécharge le PDF indexable

Le PDF obtenu est visuellement identique à l'original, mais tu peux désormais y chercher du texte, sélectionner et copier des passages, et l'information est accessible aux indexeurs et aux lecteurs d'écran.

FAQ

Des questions ?

C'est quoi la ROC et comment ça fonctionne ?

La ROC (Reconnaissance Optique de Caractères) est la technologie qui convertit des images de texte en texte encodé numériquement. Le processus comprend trois grandes étapes : le prétraitement de l'image (correction de l'inclinaison, suppression du bruit, binarisation), la segmentation (identification des lignes de texte, des mots et des caractères individuels), et la reconnaissance (comparaison de chaque caractère avec des modèles de référence pour déterminer le caractère le plus probable). Les moteurs ROC modernes basés sur des réseaux de neurones récurrents LSTM surpassent les méthodes classiques par gabarit en précision, notamment sur les documents aux polices irrégulières, au texte incliné ou dégradé.

Quelle précision la ROC atteint-elle sur des documents en français ?

Tesseract 5, le moteur ROC open source le plus utilisé (développé à l'origine par HP dans les années 1980, repris par Google et publié sous licence Apache 2.0, avec la version LSTM 5.0 lancée en novembre 2021), atteint des taux de précision de 98 à 99 % sur des documents imprimés scannés à 300 DPI avec une bonne qualité. Les documents avec des polices standard (Times New Roman, Arial, Calibri) obtiennent de très bons résultats. Les documents aux polices décoratives, au texte très petit (moins de 8 points) ou dégradés par l'âge ont une précision moindre.

Quelle est la différence entre ROC vers PDF indexable et ROC vers texte ?

La ROC vers PDF indexable (aussi appelé PDF avec couche ROC ou PDF à texte intégré) conserve l'image originale du document et ajoute une couche de texte invisible qui rend le document indexable. L'apparence visuelle est identique au scan d'origine. La ROC vers texte extrait uniquement le texte reconnu sans conserver l'image d'origine. Pour les documents dont l'image originale a une valeur légale (contrats signés, actes notariés, factures tamponnées), le PDF indexable est le bon choix. Pour l'extraction de données ou l'analyse textuelle, l'extraction directe en TXT est plus efficace.

Est-ce que ça fonctionne avec des documents en plusieurs langues ?

Oui. Tesseract 5 prend en charge plus de 100 langues, dont le français, l'anglais, l'espagnol, l'allemand, le portugais, l'italien, le russe, le chinois simplifié et traditionnel, le japonais, l'arabe, le hindi, et bien d'autres. Pour les documents mélangeant plusieurs langues sur la même page, le mode de reconnaissance multilingue peut être activé, ce qui améliore la précision par rapport à l'utilisation d'une seule langue fixée.

Quelle résolution de scanner faut-il pour une bonne précision ROC ?

La résolution minimale recommandée pour une ROC de qualité est de 300 DPI. À cette résolution, la plupart des polices imprimées sont suffisamment définies pour que le moteur ROC les reconnaisse correctement. À 150 DPI, la précision baisse sensiblement, notamment sur les petits corps (10 à 12 points). À 600 DPI, la qualité est excellente mais la taille du fichier est bien plus grande sans amélioration proportionnelle de la précision ROC pour du texte normal. Pour les documents contenant du microprint (texte très petit comme les notes de bas de page dans des documents juridiques), scanner à 400 à 600 DPI peut être nécessaire.

Peut-on appliquer la ROC à des PDF qui ont déjà du texte ?

Les PDF mixtes contenant des pages avec du texte natif et des pages scannées sont courants : par exemple, un contrat dont les premières pages sont du texte généré numériquement et la dernière page est une signature scannée. Les moteurs ROC modernes peuvent détecter automatiquement quelles pages ont du vrai texte et lesquelles sont des images, en appliquant la ROC uniquement là où c'est nécessaire. Cela évite de retraiter inutilement des pages qui ont déjà du texte lisible.