Generador de Robots.txt
Genera un robots.txt correcto y evita errores de rastreo que afecten tu SEO.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Por qué importa
El robots.txt correcto protege tu SEO
Sin errores de sintaxis
Genera un archivo válido con la sintaxis exacta que los buscadores esperan.
Evita desindexaciones
Configura reglas correctas para no bloquear accidentalmente CSS, JS o páginas importantes.
Incluye directiva Sitemap
Añade la URL de tu sitemap para que Googlebot descubra tu contenido más rápido.
Sin registro
Genera y descarga tu robots.txt sin crear ninguna cuenta.
Cómo funciona
Tres pasos, sin complicaciones
Configura tus reglas
Elige los bots (Googlebot, Bingbot, todos) y define qué rutas permitir o bloquear. Añade la URL de tu sitemap si tienes uno.
Previsualiza el archivo
El generador construye el robots.txt en tiempo real. Revisa que las reglas sean exactamente las que necesitas.
Descarga y sube a tu servidor
Copia el contenido o descarga el archivo. Súbelo a la raíz de tu dominio como /robots.txt.
Preguntas frecuentes
¿Tienes dudas?
Robots.txt es un archivo de texto plano que los sitios web colocan en su directorio raíz para indicar a los rastreadores de buscadores (bots) qué páginas o secciones no deben visitar. Fue propuesto por Martijn Koster en 1994 como parte del Robots Exclusion Standard, una convención informal adoptada rápidamente por todos los buscadores principales. Google, Bing, Yahoo y prácticamente todos los bots respetan este archivo de forma voluntaria.
No. Este es el error más frecuente. Robots.txt controla el rastreo (crawling), no la indexación. Un buscador puede indexar una URL bloqueada en robots.txt si encuentra enlaces a ella desde otras páginas. Para impedir la indexación de verdad, debes usar la meta etiqueta <meta name='robots' content='noindex'> o el encabezado HTTP X-Robots-Tag: noindex en la propia página.
Los más habituales son: (1) bloquear archivos CSS y JavaScript — esto impide que Googlebot renderice tus páginas correctamente y puede perjudicar el posicionamiento; (2) usar robots.txt para ocultar páginas con información sensible — no es un mecanismo de seguridad; (3) sintaxis incorrecta (mayúsculas, espacios extra) — el archivo es sensible a mayúsculas/minúsculas en las rutas; (4) no añadir la directiva Sitemap, que ayuda a los buscadores a descubrir tu contenido.
Google respeta las directivas estándar User-agent, Disallow y Allow, más algunas extensiones propias: Crawl-delay (aunque Google lo ignora oficialmente y prefiere ajustar la tasa de rastreo desde Search Console), la directiva Sitemap (para declarar la URL del sitemap XML), y el comodín * en rutas. Google también lee el encabezado HTTP X-Robots-Tag para instrucciones a nivel de documento, incluyendo en recursos no HTML como PDFs e imágenes.
La directiva Sitemap: https://example.com/sitemap.xml dentro de robots.txt le indica a los rastreadores dónde encontrar el sitemap XML del sitio. Es un método de descubrimiento complementario al registro en Google Search Console. Puedes declarar múltiples sitemaps en el mismo robots.txt. Aunque no es parte del estándar original de 1994, todos los buscadores principales la reconocen.
Robots.txt: el Robots Exclusion Standard y su impacto SEO
El Robots Exclusion Standard (RES) nació en 1994 de una propuesta de Martijn Koster, ingeniero de software holandés, publicada en la lista de correo www-talk. En aquella época, los primeros rastreadores web —como el World Wide Web Wanderer de Matthew Gray (1993) y el primitivo Webcrawler— consumían tanto ancho de banda de los servidores que los administradores necesitaban una forma de controlarlos. Koster propuso el archivo robots.txt como convención voluntaria y los principales buscadores de la época (ALIWEB, el primero que utilizó el archivo activamente, seguido por WebCrawler, AltaVista y Yahoo) lo adoptaron rápidamente.
En 2019, Google publicó una especificación formal del Robots Exclusion Protocol (REP) como RFC 9309, publicado definitivamente por la IETF en 2022. Esta formalización —casi 30 años después de la propuesta original— estandarizó aspectos que habían quedado ambiguos, como el comportamiento ante respuestas HTTP 4xx (tratar 404/410 como sin restricciones, tratar 429 como acceso denegado temporalmente), el límite de tamaño del archivo (máximo 500 kibibytes según la RFC), el orden de precedencia de las reglas Allow/Disallow y la sensibilidad a mayúsculas en rutas.
Un robots.txt mal configurado puede tener consecuencias SEO devastadoras. En 2006, Google desindexó accidentalmente una parte de su propio sitio por un error en robots.txt. En 2013, Expedia perdió significativa visibilidad orgánica por un bloqueo accidental. En 2020, varios sitios grandes sufrieron caídas de tráfico orgánico por errores similares durante migraciones. La directiva 'Disallow: /' (bloquear todo el sitio) aparece en robots.txt por defecto en muchos CMS durante el desarrollo — y olvidar revertirla en producción es un error clásico que los auditores SEO comprueban en primera instancia. Google Search Console incluye una herramienta de prueba de robots.txt que permite verificar si una URL específica puede ser rastreada antes de subir cambios al servidor.