Extractor de URLs
Extrae todas las URLs de cualquier texto o código fuente.
Por qué usarlo
Descubre todos los links en segundos
HTTP y HTTPS
Detecta URLs con ambos esquemas, incluyendo puertos, rutas, query strings y fragmentos.
100% privado
Tu texto nunca sale del navegador. Ideal para código fuente y datos internos.
Sin duplicados
Deduplicación automática. Cada URL aparece una sola vez en el resultado.
Instantáneo
Extracción en milisegundos, sin importar la longitud del texto o HTML.
Cómo funciona
Tres pasos, sin complicaciones
Pega tu texto o HTML
Pega el contenido del que quieres extraer URLs: texto plano, código HTML, respuestas API, logs.
Extracción automática
El extractor detecta todas las URLs http y https, con query strings, fragmentos y caracteres codificados.
Copia la lista de URLs
Obtén la lista deduplicada de URLs, una por línea, lista para análisis o auditoría.
Preguntas frecuentes
¿Tienes dudas?
El extractor detecta URLs con esquema http:// y https://. El patrón incluye el dominio con subdominios, la ruta, los parámetros de query string (después de ?) y los fragmentos (después de #). También detecta URLs con puertos explícitos (https://ejemplo.com:8080/ruta) y con caracteres especiales codificados en URL encoding (%20, %2F, etc.). Las URLs sin esquema (ejemplo.com/ruta) no se detectan para evitar falsos positivos en texto normal.
Las query strings (https://ejemplo.com/buscar?q=término&page=2) se incluyen completas en el resultado. Los fragmentos de URL (https://ejemplo.com/doc#sección) también se preservan. Los caracteres codificados en formato percent-encoding (RFC 3986) como %20 para espacio, %2F para barra, se mantienen tal como aparecen en el texto. Esto es importante para URLs de APIs REST que contienen parámetros con valores complejos.
Sí. El extractor compara URLs completas incluyendo query strings y fragmentos para determinar duplicados. Dos URLs que apuntan al mismo recurso pero con diferentes query strings se consideran distintas (https://ejemplo.com?id=1 y https://ejemplo.com?id=2 son URLs diferentes). La comparación es sensible a mayúsculas/minúsculas para la ruta, pero insensible para el dominio, siguiendo el estándar RFC 3986.
Para extraer URLs de una página web: 1) En Chrome/Firefox, pulsa Ctrl+U (o Cmd+U en Mac) para ver el código fuente de la página. 2) Selecciona todo con Ctrl+A y cópialo. 3) Pégalo en el extractor. Esto captura todas las URLs en atributos href, src, action y data-*, además de las URLs en comentarios y scripts. Para páginas con JavaScript dinámico, usa las herramientas de desarrollador (Network tab) para capturar las peticiones realizadas.
Los casos de uso más comunes son: auditoría SEO para encontrar todos los enlaces de una página, detección de enlaces rotos al comparar URLs extraídas con respuestas HTTP, análisis de logs de servidor para ver qué URLs se solicitan más, extracción de fuentes de recursos (imágenes, scripts, estilos) de páginas HTML, análisis de sitemap XML, verificación de URLs en documentación técnica, y recopilación de fuentes para scraping estructurado.
Estructura de URLs según RFC 3986 y análisis de enlaces en SEO
La estructura de las URLs (Uniform Resource Locators) está definida por RFC 3986 (Uniform Resource Identifier: Generic Syntax), publicado en 2005. La especificación define los componentes: esquema (http, https, ftp), autoridad (usuario:contraseña@host:puerto), ruta, query y fragmento. RFC 3986 también define el percent-encoding para representar caracteres no permitidos directamente en URLs. Es una evolución de RFC 2396 (1998) y RFC 1738 (1994), el primer RFC que definió el formato URL.
La distinción entre URI, URL y URN es frecuentemente confundida. Un URI (Uniform Resource Identifier) es el concepto más amplio: identifica un recurso. Una URL (Uniform Resource Locator) es un URI que además especifica cómo acceder al recurso (incluye el esquema de acceso como http://). Un URN (Uniform Resource Name) es un URI que identifica un recurso por nombre en un espacio de nombres, como ISBN o DOI. En la práctica, los términos URL y URI se usan indistintamente en el contexto web, aunque técnicamente las URLs son un subconjunto de URIs.
El análisis de enlaces (link analysis) es una técnica fundamental en SEO. Los rastreadores web (crawlers) como Googlebot extraen URLs de páginas para descubrir nuevo contenido. El PageRank, el algoritmo original de Google patentado en 1998, valora las páginas según la cantidad y calidad de los enlaces que reciben. Herramientas como Screaming Frog, Ahrefs y Semrush basan parte de su funcionalidad en la extracción masiva de URLs de páginas web para construir grafos de enlaces que permiten analizar la estructura de autoridad de un sitio.