Генератор robots.txt Онлайн
Генерируйте файл robots.txt для вашего сайта — с проверкой правил.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Зачем это нужно
robots.txt для управления индексацией
Все роботы
Правила для Googlebot, Bingbot и других поисковых систем.
Без интернета
Генерация в браузере без отправки данных на сервер.
Валидация
Инструмент проверяет синтаксис и предупреждает о распространённых ошибках.
Мгновенно
Файл генерируется сразу при выборе правил.
Как это работает
Три шага — никаких сложностей
Выберите правила
Укажите, каким поисковым роботам разрешён или запрещён доступ к каким разделам сайта.
Добавьте Sitemap
Укажите URL sitemap для ускорения индексации поисковыми системами.
Скачайте robots.txt
Получите готовый файл и разместите его в корне вашего сайта.
FAQ
Остались вопросы?
robots.txt — текстовый файл в корне сайта, содержащий инструкции для поисковых роботов согласно Robots Exclusion Protocol (REP). Он указывает, какие части сайта роботы могут или не могут сканировать. Файл должен быть доступен по адресу https://yourdomain.com/robots.txt.
Нет. robots.txt запрещает сканирование (crawling), но не гарантирует отсутствие страницы в индексе. Если на заблокированную страницу ведут внешние ссылки, Google может добавить её в индекс без сканирования. Для предотвращения индексации используйте мета-тег noindex или заголовок X-Robots-Tag.
User-agent: * применяется ко всем роботам. Для конкретного робота используйте его имя: User-agent: Googlebot (только Google), User-agent: Bingbot (только Bing), User-agent: GPTBot (ChatGPT), User-agent: anthropic-ai (Claude). Правила для конкретного агента имеют приоритет над правилами для *.
Добросовестные роботы (Googlebot, Bingbot, DuckDuckBot) соблюдают robots.txt. Вредоносные боты и скраперы могут игнорировать эти правила. Для защиты от нежелательного доступа используйте аутентификацию и WAF (Web Application Firewall).
Стандарт REP (RFC 9309, 2022) определяет базовые правила. Расширения: Crawl-delay (задержка между запросами), Sitemap (URL карты сайта). Google поддерживает * и $ в Disallow-путях. Allow директива является нестандартным, но широко поддерживаемым расширением Googlebot.
robots.txt: Robots Exclusion Protocol, RFC 9309 и управление сканированием
Robots Exclusion Protocol был неформально введён Мартейном Космасом в 1994 году и быстро принят поисковыми системами как де-факто стандарт. Формальная спецификация появилась лишь в 2022 году — RFC 9309, принятый IETF. Стандарт определяет синтаксис User-agent, Allow, Disallow и Sitemap директив, а также порядок применения правил при конфликтах.
Google рекомендует использовать robots.txt для управления нагрузкой сканирования, а не для скрытия страниц из индекса. Блокировка страниц в robots.txt может создать «thin crawl budget» проблему: Google выделяет каждому сайту лимит сканирования, и неэффективные маршруты (параметры сортировки, фасетная навигация) тратят его впустую. robots.txt позволяет сосредоточить краулер на значимых страницах.
С ростом AI-краулеров robots.txt приобретает новое значение. GPTBot (OpenAI), CCBot (Common Crawl), anthropic-ai (Anthropic), Applebot-Extended имеют собственные User-agent имена. Сайты могут ограничивать доступ AI-систем к своему контенту, добавив соответствующие Disallow-правила. Эффективность этих ограничений остаётся предметом дискуссий.