Générateur robots.txt en Ligne
Génère un robots.txt correct et évite les erreurs de crawl qui nuisent à ton SEO.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Pourquoi c'est important
Le bon robots.txt protège ton SEO
Sans erreurs de syntaxe
Génère un fichier valide avec la syntaxe exacte attendue par les moteurs de recherche.
Évite les déindexations
Configure des règles correctes pour ne pas bloquer accidentellement les CSS, JS ou les pages importantes.
Inclut la directive Sitemap
Ajoute l'URL de ton sitemap pour que Googlebot découvre ton contenu plus vite.
Sans inscription
Génère et télécharge ton robots.txt sans créer de compte.
Comment ça marche
Trois étapes, sans complications
Configure tes règles
Choisis les bots (Googlebot, Bingbot, tous) et définis quels chemins autoriser ou interdire. Ajoute l'URL de ton sitemap si tu en as un.
Prévisualise le fichier
Le générateur construit le robots.txt en temps réel. Vérifie que les règles correspondent exactement à ce dont tu as besoin.
Télécharge et publie sur ton serveur
Copie le contenu ou télécharge le fichier. Dépose-le à la racine de ton domaine sous /robots.txt.
FAQ
Des questions ?
Robots.txt est un fichier texte que les sites web placent à la racine de leur répertoire pour indiquer aux robots d'exploration des moteurs de recherche (bots) quelles pages ou sections ils ne doivent pas visiter. Il a été proposé par Martijn Koster en 1994 dans le cadre du Robots Exclusion Standard, une convention informelle rapidement adoptée par tous les grands moteurs de recherche. Google, Bing, Yahoo et pratiquement tous les bots respectent volontairement ce fichier.
Non. C'est l'erreur la plus répandue. Robots.txt contrôle le crawl, pas l'indexation. Un moteur de recherche peut indexer une URL bloquée dans robots.txt s'il trouve des liens vers elle depuis d'autres pages. Pour vraiment empêcher l'indexation, tu dois utiliser la balise meta robots avec la valeur noindex ou l'en-tête HTTP X-Robots-Tag: noindex sur la page elle-même.
Les plus fréquentes sont : (1) bloquer les fichiers CSS et JavaScript — cela empêche Googlebot de rendre tes pages correctement et peut nuire au positionnement ; (2) utiliser robots.txt pour masquer des pages avec des informations sensibles — ce n'est pas un mécanisme de sécurité ; (3) une syntaxe incorrecte (majuscules, espaces superflus) — le fichier est sensible à la casse pour les chemins ; (4) ne pas ajouter la directive Sitemap, qui aide les moteurs de recherche à découvrir ton contenu.
Google respecte les directives standard User-agent, Disallow et Allow, plus quelques extensions : Crawl-delay (bien que Google l'ignore officiellement et préfère ajuster le taux de crawl via Search Console), la directive Sitemap (pour déclarer l'URL du sitemap XML) et le joker * dans les chemins. Google lit également l'en-tête HTTP X-Robots-Tag pour les instructions au niveau du document, y compris sur les ressources non HTML comme les PDFs et les images.
La directive Sitemap: https://example.com/sitemap.xml à l'intérieur de robots.txt indique aux robots où trouver le sitemap XML du site. C'est une méthode de découverte complémentaire à l'enregistrement dans Google Search Console. Tu peux déclarer plusieurs sitemaps dans le même robots.txt. Bien qu'elle ne fasse pas partie du standard original de 1994, tous les grands moteurs de recherche la reconnaissent.
Robots.txt : le Robots Exclusion Standard et son impact SEO
Le Robots Exclusion Standard (RES) est né en 1994 d'une proposition de Martijn Koster, ingénieur logiciel néerlandais, publiée sur la liste de diffusion www-talk. À l'époque, les premiers robots d'exploration web — comme le World Wide Web Wanderer de Matthew Gray (1993) et le primitif Webcrawler — consommaient tellement de bande passante serveur que les administrateurs avaient besoin d'un moyen de les contrôler. Koster a proposé robots.txt comme convention volontaire, et les grands moteurs de recherche de l'époque (ALIWEB, le premier à utiliser activement le fichier, suivi de WebCrawler, AltaVista et Yahoo) l'ont rapidement adopté.
En 2019, Google a soumis une spécification formelle du Robots Exclusion Protocol (REP) sous la forme de la RFC 9309, définitivement publiée par l'IETF en 2022. Cette formalisation — près de 30 ans après la proposition originale — a standardisé des aspects qui étaient restés ambigus, comme le comportement en cas de réponses HTTP 4xx (traiter 404/410 comme sans restrictions, traiter 429 comme accès temporairement refusé), la limite de taille du fichier (500 kibioctets maximum selon la RFC), l'ordre de priorité des règles Allow/Disallow et la sensibilité à la casse des chemins.
Un robots.txt mal configuré peut avoir des conséquences SEO dévastatrices. En 2006, Google a accidentellement désindexé une partie de son propre site à cause d'une erreur dans robots.txt. En 2013, Expedia a perdu une visibilité organique significative à cause d'un blocage accidentel. En 2020, plusieurs grands sites ont subi des chutes de trafic organique à cause d'erreurs similaires lors de migrations. La directive Disallow: / (bloquer l'intégralité du site) apparaît dans robots.txt par défaut dans de nombreux CMS en phase de développement — oublier de la supprimer en production est une erreur classique que les auditeurs SEO vérifient en premier. Google Search Console inclut un outil de test robots.txt qui te permet de vérifier si une URL spécifique peut être crawlée avant de pousser les changements sur le serveur.