ДокументыИзображенияМедиаИнструменты PDF

Генератор robots.txt Онлайн

Генерируйте файл robots.txt для вашего сайта — с проверкой правил.

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml
Processed in your browser

robots.txt для управления индексацией

Все роботы

Правила для Googlebot, Bingbot и других поисковых систем.

Без интернета

Генерация в браузере без отправки данных на сервер.

Валидация

Инструмент проверяет синтаксис и предупреждает о распространённых ошибках.

Мгновенно

Файл генерируется сразу при выборе правил.

Три шага — никаких сложностей

1

Выберите правила

Укажите, каким поисковым роботам разрешён или запрещён доступ к каким разделам сайта.

2

Добавьте Sitemap

Укажите URL sitemap для ускорения индексации поисковыми системами.

3

Скачайте robots.txt

Получите готовый файл и разместите его в корне вашего сайта.

Остались вопросы?

robots.txt — текстовый файл в корне сайта, содержащий инструкции для поисковых роботов согласно Robots Exclusion Protocol (REP). Он указывает, какие части сайта роботы могут или не могут сканировать. Файл должен быть доступен по адресу https://yourdomain.com/robots.txt.

Нет. robots.txt запрещает сканирование (crawling), но не гарантирует отсутствие страницы в индексе. Если на заблокированную страницу ведут внешние ссылки, Google может добавить её в индекс без сканирования. Для предотвращения индексации используйте мета-тег noindex или заголовок X-Robots-Tag.

User-agent: * применяется ко всем роботам. Для конкретного робота используйте его имя: User-agent: Googlebot (только Google), User-agent: Bingbot (только Bing), User-agent: GPTBot (ChatGPT), User-agent: anthropic-ai (Claude). Правила для конкретного агента имеют приоритет над правилами для *.

Добросовестные роботы (Googlebot, Bingbot, DuckDuckBot) соблюдают robots.txt. Вредоносные боты и скраперы могут игнорировать эти правила. Для защиты от нежелательного доступа используйте аутентификацию и WAF (Web Application Firewall).

Стандарт REP (RFC 9309, 2022) определяет базовые правила. Расширения: Crawl-delay (задержка между запросами), Sitemap (URL карты сайта). Google поддерживает * и $ в Disallow-путях. Allow директива является нестандартным, но широко поддерживаемым расширением Googlebot.

robots.txt: Robots Exclusion Protocol, RFC 9309 и управление сканированием

Robots Exclusion Protocol был неформально введён Мартейном Космасом в 1994 году и быстро принят поисковыми системами как де-факто стандарт. Формальная спецификация появилась лишь в 2022 году — RFC 9309, принятый IETF. Стандарт определяет синтаксис User-agent, Allow, Disallow и Sitemap директив, а также порядок применения правил при конфликтах.

Google рекомендует использовать robots.txt для управления нагрузкой сканирования, а не для скрытия страниц из индекса. Блокировка страниц в robots.txt может создать «thin crawl budget» проблему: Google выделяет каждому сайту лимит сканирования, и неэффективные маршруты (параметры сортировки, фасетная навигация) тратят его впустую. robots.txt позволяет сосредоточить краулер на значимых страницах.

С ростом AI-краулеров robots.txt приобретает новое значение. GPTBot (OpenAI), CCBot (Common Crawl), anthropic-ai (Anthropic), Applebot-Extended имеют собственные User-agent имена. Сайты могут ограничивать доступ AI-систем к своему контенту, добавив соответствующие Disallow-правила. Эффективность этих ограничений остаётся предметом дискуссий.