robots.txt-Generator Online
Korrekte robots.txt generieren und Crawling-Fehler vermeiden, die deiner SEO schaden.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Warum das wichtig ist
Die korrekte robots.txt schützt dein SEO
Keine Syntaxfehler
Erstelle eine gültige Datei mit der genauen Syntax, die Suchmaschinen erwarten.
De-Indexierung vermeiden
Korrekte Regeln konfigurieren, damit du nicht versehentlich CSS, JS oder wichtige Seiten blockierst.
Sitemap-Direktive inklusive
Füge deine Sitemap-URL hinzu, damit Googlebot deinen Inhalt schneller entdeckt.
Keine Anmeldung
robots.txt generieren und herunterladen ohne Konto erstellen.
So funktioniert es
Drei Schritte, kein Aufwand
Regeln konfigurieren
Wähle die Bots (Googlebot, Bingbot, alle) und definiere, welche Pfade erlaubt oder verboten sind. Füge deine Sitemap-URL hinzu, falls vorhanden.
Datei in der Vorschau prüfen
Der Generator erstellt die robots.txt in Echtzeit. Überprüfe, ob die Regeln genau deinen Anforderungen entsprechen.
Herunterladen und auf deinen Server hochladen
Kopiere den Inhalt oder lade die Datei herunter. Lade sie als /robots.txt in das Stammverzeichnis deiner Domain hoch.
FAQ
Noch Fragen?
Robots.txt ist eine Nur-Text-Datei, die Websites in ihrem Stammverzeichnis ablegen, um Suchmaschinen-Crawlern (Bots) mitzuteilen, welche Seiten oder Bereiche sie nicht besuchen sollen. Sie wurde 1994 von Martijn Koster als Teil des Robots Exclusion Standard vorgeschlagen, einer informellen Konvention, die schnell von allen großen Suchmaschinen übernommen wurde. Google, Bing, Yahoo und praktisch alle Bots respektieren diese Datei freiwillig.
Nein. Das ist das häufigste Missverständnis. Robots.txt steuert das Crawling, nicht die Indexierung. Eine Suchmaschine kann eine in robots.txt blockierte URL indexieren, wenn sie Links dazu von anderen Seiten findet. Um die Indexierung wirklich zu verhindern, muss der Meta-Tag meta name=robots content=noindex oder der HTTP-Header X-Robots-Tag: noindex auf der Seite selbst verwendet werden.
Die häufigsten Fehler sind: (1) CSS- und JavaScript-Dateien blockieren – das verhindert, dass Googlebot deine Seiten korrekt rendert und kann die Rankings verschlechtern; (2) robots.txt zum Verstecken von Seiten mit sensiblen Informationen verwenden – es ist kein Sicherheitsmechanismus; (3) fehlerhafte Syntax (Groß-/Kleinschreibungsfehler, zusätzliche Leerzeichen) – die Datei ist für Pfade case-sensitive; (4) fehlende Sitemap-Direktive, die Suchmaschinen dabei hilft, deine Inhalte zu entdecken.
Google respektiert die Standard-Direktiven User-agent, Disallow und Allow sowie einige Erweiterungen: Crawl-delay (obwohl Google dies offiziell ignoriert und es vorzieht, die Crawl-Rate über die Search Console anzupassen), die Sitemap-Direktive (zur Angabe der XML-Sitemap-URL) und den Platzhalter * in Pfaden. Google liest auch den HTTP-Header X-Robots-Tag für Anweisungen auf Dokumentenebene, einschließlich für Nicht-HTML-Ressourcen wie PDFs und Bilder.
Die Direktive Sitemap: https://example.com/sitemap.xml innerhalb von robots.txt teilt Crawlern mit, wo sie die XML-Sitemap der Website finden. Es ist eine Entdeckungsmethode, die die Registrierung in der Google Search Console ergänzt. Du kannst mehrere Sitemaps in derselben robots.txt deklarieren. Obwohl nicht Teil des ursprünglichen Standards von 1994, wird sie von allen großen Suchmaschinen erkannt.
Robots.txt: der Robots-Exclusion-Standard und seine SEO-Auswirkungen
Der Robots Exclusion Standard (RES) entstand 1994 aus einem Vorschlag von Martijn Koster, einem niederländischen Softwareingenieur, der auf der Mailingliste www-talk veröffentlicht wurde. Zu dieser Zeit verbrauchten die ersten Web-Crawler – wie Matthew Grays World Wide Web Wanderer (1993) und der primitive Webcrawler – so viel Server-Bandbreite, dass Administratoren eine Möglichkeit brauchten, sie zu kontrollieren. Koster schlug robots.txt als freiwillige Konvention vor, und die wichtigsten Suchmaschinen der damaligen Zeit (ALIWEB, die erste, die die Datei aktiv nutzte, gefolgt von WebCrawler, AltaVista und Yahoo) übernahmen sie schnell.
Im Jahr 2019 reichte Google eine formale Spezifikation des Robots Exclusion Protocol (REP) als RFC 9309 ein, die 2022 endgültig von der IETF veröffentlicht wurde. Diese Formalisierung – fast 30 Jahre nach dem ursprünglichen Vorschlag – standardisierte bisher mehrdeutig gebliebene Aspekte, wie das Verhalten bei HTTP-4xx-Antworten (behandle 404/410 als uneingeschränkt, behandle 429 als vorübergehend verweigert), die Dateigrößenbeschränkung (maximal 500 Kibibytes laut RFC), die Vorrangigkeit von Allow/Disallow-Regeln und die Groß-/Kleinschreibungsempfindlichkeit von Pfaden.
Eine falsch konfigurierte robots.txt kann verheerende SEO-Folgen haben. 2006 de-indexierte Google versehentlich Teile seiner eigenen Website aufgrund eines robots.txt-Fehlers. 2013 verlor Expedia durch eine versehentliche Blockierung deutlich organische Sichtbarkeit. Im Jahr 2020 verzeichneten mehrere große Websites organische Traffic-Einbrüche durch ähnliche Fehler bei Migrationen. Die Direktive Disallow: / (gesamte Website blockieren) erscheint standardmäßig in robots.txt vieler Content-Management-Systeme während der Entwicklung – und das Vergessen, sie in der Produktion rückgängig zu machen, ist ein klassischer Fehler, den SEO-Auditoren als Erstes prüfen. Die Google Search Console enthält ein robots.txt-Testtool, mit dem du prüfen kannst, ob eine bestimmte URL gecrawlt werden kann, bevor du Änderungen auf dem Server einspielst.