URL Extractor en Ligne
Extrait toutes les URL de n'importe quel texte ou code source instantanement.
Pourquoi l'utiliser
Decouvre tous les liens en quelques secondes
HTTP et HTTPS
Detecte les URL avec les deux schemas, y compris ports, chemins, query strings et fragments.
100 % prive
Ton texte ne quitte jamais le navigateur. Ideal pour le code source et les donnees internes.
Sans doublons
Deduplication automatique. Chaque URL n'apparait qu'une seule fois dans le resultat.
Instantane
Extraction en quelques millisecondes, quelle que soit la longueur du texte ou du HTML.
Comment ça marche
Trois étapes, sans complications
Colle ton texte ou HTML
Colle le contenu dont tu veux extraire des URL : texte brut, code HTML, reponses API, logs.
Extraction automatique
L'extracteur detecte toutes les URL http et https, avec query strings, fragments et caracteres encodes.
Copie la liste d'URL
Obtiens la liste dedupliquee d'URL, une par ligne, prete pour l'analyse ou l'audit.
FAQ
Des questions ?
L'extracteur detecte les URL avec les schemas http:// et https://. Le pattern inclut le domaine avec les sous-domaines, le chemin, les parametres de query string (apres ?) et les fragments (apres #). Il detecte aussi les URL avec des ports explicites (https://exemple.com:8080/chemin) et les caracteres encodes en URL (%20, %2F, etc.). Les URL sans schema (exemple.com/chemin) ne sont pas detectees pour eviter les faux positifs dans le texte courant.
Les query strings (https://exemple.com/recherche?q=terme&page=2) sont incluses en totalite dans le resultat. Les fragments d'URL (https://exemple.com/doc#section) sont egalement preserves. Les caracteres encodes en format percent-encoding (RFC 3986) comme %20 pour l'espace et %2F pour le slash sont conserves tels qu'ils apparaissent dans le texte. C'est important pour les URL d'API REST contenant des parametres avec des valeurs complexes.
Oui. L'extracteur compare les URL completes, y compris les query strings et fragments, pour determiner les doublons. Deux URL pointant vers la meme ressource mais avec des query strings differentes sont considerees distinctes (https://exemple.com?id=1 et https://exemple.com?id=2 sont des URL differentes). La comparaison est sensible a la casse pour le chemin mais insensible pour le domaine, conformement au standard RFC 3986.
Pour extraire des URL depuis une page web : 1) Dans Chrome/Firefox, appuie sur Ctrl+U (ou Cmd+U sur Mac) pour voir le code source de la page. 2) Selectionne tout avec Ctrl+A et copie. 3) Colle dans l'extracteur. Cela capture toutes les URL dans les attributs href, src, action et data-*, ainsi que les URL dans les commentaires et les scripts. Pour les pages avec du JavaScript dynamique, utilise l'onglet Reseau des outils developpeur pour capturer les requetes reelles effectuees.
Les cas d'usage les plus courants sont : audits SEO pour trouver tous les liens d'une page, detection de liens rompus en comparant les URL extraites avec les reponses HTTP, analyse des logs de serveur pour voir quelles URL sont les plus demandees, extraction des sources de ressources (images, scripts, styles) depuis des pages HTML, analyse de sitemaps XML, verification d'URL dans la documentation technique, et collecte de sources pour du scraping structure.
Structure des URL selon RFC 3986 et analyse des liens en SEO
La structure des URL (Uniform Resource Locators) est definie par RFC 3986 (Uniform Resource Identifier : Generic Syntax), publie en 2005. La specification definit les composants : schema (http, https, ftp), autorite (utilisateur:mot_de_passe@hote:port), chemin, query et fragment. RFC 3986 definit aussi le percent-encoding pour representer les caracteres non autorises directement dans les URL. C'est une evolution de RFC 2396 (1998) et RFC 1738 (1994), le premier RFC a definir le format URL.
La distinction entre URI, URL et URN est souvent confondue. Un URI (Uniform Resource Identifier) est le concept le plus large : il identifie une ressource. Une URL (Uniform Resource Locator) est un URI qui specifie egalement comment acceder a la ressource (inclut le schema d'acces comme http://). Un URN (Uniform Resource Name) est un URI qui identifie une ressource par son nom dans un espace de noms, comme l'ISBN ou le DOI. Dans la pratique, les termes URL et URI sont utilises indifferemment dans le contexte web, bien que techniquement les URL soient un sous-ensemble des URI.
L'analyse des liens est une technique fondamentale en SEO. Les robots d'exploration comme Googlebot extraient des URL de pages pour decouvrir de nouveaux contenus. PageRank, l'algorithme original de Google brevete en 1998, valorise les pages selon la quantite et la qualite des liens qu'elles recoivent. Des outils comme Screaming Frog, Ahrefs et Semrush basent une partie de leur fonctionnalite sur l'extraction massive d'URL depuis des pages web pour construire des graphes de liens permettant d'analyser la structure d'autorite d'un site.