Generator robots.txt Online
Generuj poprawny plik robots.txt i unikaj błędów indeksowania szkodzących Twojemu SEO.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Dlaczego to ważne
Poprawny plik robots.txt chroni Twoje SEO
Bez błędów składni
Generuj prawidłowy plik z dokładną składnią, jakiej oczekują wyszukiwarki.
Unikaj deindeksowania
Konfiguruj właściwe reguły, aby nie zablokować przypadkowo CSS, JS ani ważnych stron.
Zawiera dyrektywę Sitemap
Dodaj URL mapy witryny, aby Googlebot szybciej odkrywał Twoje treści.
Bez rejestracji
Generuj i pobieraj robots.txt bez tworzenia żadnego konta.
Jak to działa
Trzy kroki, żadnych komplikacji
Skonfiguruj reguły
Wybierz boty (Googlebot, Bingbot, wszystkie) i zdefiniuj ścieżki do zezwolenia lub zablokowania. Dodaj URL mapy witryny, jeśli ją posiadasz.
Wyświetl podgląd pliku
Generator buduje plik robots.txt w czasie rzeczywistym. Sprawdź, czy reguły są dokładnie takie, jakich potrzebujesz.
Pobierz i wgraj na serwer
Skopiuj zawartość lub pobierz plik. Wgraj go do katalogu głównego swojej domeny jako /robots.txt.
FAQ
Masz pytania?
Robots.txt to plik tekstowy, który witryny umieszczają w swoim katalogu głównym, aby poinformować crawlery wyszukiwarek (boty), których stron lub sekcji nie powinny odwiedzać. Został zaproponowany przez Martijona Kostera w 1994 roku jako część Robots Exclusion Standard, nieformalnej konwencji szybko przyjętej przez wszystkie główne wyszukiwarki. Google, Bing, Yahoo i praktycznie wszystkie boty dobrowolnie respektują ten plik.
Nie. To najczęstsze nieporozumienie. Robots.txt kontroluje indeksowanie (crawling), a nie indeksowanie (indexing). Wyszukiwarka może zindeksować URL zablokowany w robots.txt, jeśli znajdzie do niego linki z innych stron. Aby naprawdę zapobiec indeksowaniu, musisz użyć tagu <meta name='robots' content='noindex'> lub nagłówka HTTP X-Robots-Tag: noindex na samej stronie.
Najczęstsze to: (1) blokowanie plików CSS i JavaScript — to uniemożliwia Googlebotowi poprawne renderowanie Twoich stron i może zaszkodzić pozycjom w wynikach; (2) używanie robots.txt do ukrywania stron z wrażliwymi informacjami — to nie jest mechanizm bezpieczeństwa; (3) nieprawidłowa składnia (błędy wielkości liter, dodatkowe spacje) — plik uwzględnia wielkość liter dla ścieżek; (4) brak dyrektywy Sitemap, która pomaga wyszukiwarkom odkrywać Twoje treści.
Google respektuje standardowe dyrektywy User-agent, Disallow i Allow, a ponadto kilka rozszerzeń: Crawl-delay (choć Google oficjalnie go ignoruje, preferując dostosowanie częstości indeksowania przez Search Console), dyrektywę Sitemap (do deklarowania URL mapy witryny XML) i symbol wieloznaczny * w ścieżkach. Google odczytuje również nagłówek HTTP X-Robots-Tag dla instrukcji na poziomie dokumentu, w tym dla zasobów innych niż HTML, takich jak PDF-y i obrazy.
Dyrektywa Sitemap: https://example.com/sitemap.xml wewnątrz robots.txt informuje crawlery, gdzie znaleźć mapę witryny XML. Jest to metoda odkrywania komplementarna wobec rejestracji w Google Search Console. Możesz deklarować wiele map witryny w tym samym robots.txt. Choć nie jest częścią oryginalnego standardu z 1994 roku, wszystkie główne wyszukiwarki ją rozpoznają.
Robots.txt: Robots Exclusion Standard i jego wpływ na SEO
Robots Exclusion Standard (RES) powstał w 1994 roku z propozycji Martijona Kostera, holenderskiego inżyniera oprogramowania, opublikowanej na liście mailingowej www-talk. W tamtym czasie pierwsze crawlery webowe — takie jak World Wide Web Wanderer Matthew Graya (1993) i prymitywny Webcrawler — zużywały tak dużo przepustowości serwera, że administratorzy potrzebowali sposobu na ich kontrolowanie. Koster zaproponował robots.txt jako dobrowolną konwencję, którą główne wyszukiwarki tamtej epoki (ALIWEB, pierwsza aktywnie używająca pliku, a po niej WebCrawler, AltaVista i Yahoo) szybko przyjęły.
W 2019 roku Google złożył formalną specyfikację Robots Exclusion Protocol (REP) jako RFC 9309, definitywnie opublikowaną przez IETF w 2022 roku. Ta formalizacja — prawie 30 lat po oryginalnej propozycji — ustandaryzowała kwestie, które pozostawały niejednoznaczne, takie jak zachowanie przy odpowiedziach HTTP 4xx (traktuj 404/410 jako brak ograniczeń, traktuj 429 jako tymczasowe odmówienie), limit rozmiaru pliku (maksimum 500 kibibajtów według RFC), kolejność pierwszeństwa reguł Allow/Disallow i uwzględnianie wielkości liter w ścieżkach.
Błędnie skonfigurowany plik robots.txt może mieć druzgocące konsekwencje dla SEO. W 2006 roku Google przypadkowo deindeksował część własnej witryny z powodu błędu robots.txt. W 2013 roku Expedia straciła znaczącą widoczność organiczną wskutek przypadkowego blokowania. W 2020 roku kilka dużych witryn doświadczyło spadków ruchu organicznego z powodu podobnych błędów podczas migracji. Dyrektywa 'Disallow: /' (blokująca całą witrynę) pojawia się domyślnie w pliku robots.txt wielu systemów CMS podczas programowania — a zapomnienie o jej cofnięciu na produkcji to klasyczny błąd, który audytorzy SEO sprawdzają w pierwszej kolejności. Google Search Console zawiera narzędzie do testowania robots.txt, które pozwala sprawdzić, czy konkretny URL może być indeksowany, przed wprowadzeniem zmian na serwerze.