Gerador robots.txt Online
Gere um robots.txt correto e evite erros de rastreamento que prejudicam seu SEO.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Por que é importante
Um robots.txt correto protege seu SEO
Sem erros de sintaxe
Gere um arquivo válido com a sintaxe exata que os mecanismos de busca esperam.
Evite desindexação
Configure regras corretas para não bloquear acidentalmente CSS, JS ou páginas importantes.
Inclui a diretiva Sitemap
Adicione a URL do seu sitemap para o Googlebot descobrir seu conteúdo mais rápido.
Sem cadastro
Gere e baixe seu robots.txt sem criar nenhuma conta.
Como funciona
Três passos, sem complicação
Configure suas regras
Escolha os bots (Googlebot, Bingbot, todos) e defina quais caminhos permitir ou bloquear. Adicione a URL do seu sitemap se você tiver um.
Visualize o arquivo
O gerador constrói o robots.txt em tempo real. Revise se as regras são exatamente o que você precisa.
Baixe e envie para o seu servidor
Copie o conteúdo ou baixe o arquivo. Faça o upload na raiz do seu domínio como /robots.txt.
Perguntas frequentes
Ficou com dúvidas?
Robots.txt é um arquivo de texto simples que os sites colocam no diretório raiz para informar aos rastreadores de mecanismos de busca (bots) quais páginas ou seções eles não devem visitar. Foi proposto por Martijn Koster em 1994 como parte do Robots Exclusion Standard, uma convenção informal adotada rapidamente por todos os principais mecanismos de busca. Google, Bing, Yahoo e praticamente todos os bots respeitam voluntariamente esse arquivo.
Não. Esse é o equívoco mais comum. O robots.txt controla o rastreamento, não a indexação. Um mecanismo de busca pode indexar uma URL bloqueada no robots.txt se encontrar links para ela em outras páginas. Para realmente impedir a indexação, você deve usar a tag meta name='robots' content='noindex' ou o cabeçalho HTTP X-Robots-Tag: noindex na própria página.
Os mais frequentes são: (1) bloquear arquivos CSS e JavaScript, o que impede o Googlebot de renderizar suas páginas corretamente e pode prejudicar o ranking; (2) usar o robots.txt para ocultar páginas com informações sensíveis, pois ele não é um mecanismo de segurança; (3) sintaxe incorreta (erros de maiúsculas, espaços extras), pois o arquivo diferencia maiúsculas de minúsculas nos caminhos; (4) não adicionar a diretiva Sitemap, que ajuda os mecanismos de busca a descobrir seu conteúdo.
O Google respeita as diretivas padrão User-agent, Disallow e Allow, além de algumas extensões: Crawl-delay (embora o Google a ignore oficialmente e prefira ajustar a taxa de rastreamento pelo Search Console), a diretiva Sitemap (para declarar a URL do sitemap XML) e o curinga * nos caminhos. O Google também lê o cabeçalho HTTP X-Robots-Tag para instruções no nível do documento, inclusive em recursos que não são HTML, como PDFs e imagens.
A diretiva Sitemap: https://exemplo.com/sitemap.xml dentro do robots.txt informa aos rastreadores onde encontrar o sitemap XML do site. É um método de descoberta complementar ao cadastro no Google Search Console. Você pode declarar vários sitemaps no mesmo robots.txt. Embora não faça parte do padrão original de 1994, todos os principais mecanismos de busca a reconhecem.
Robots.txt: o Robots Exclusion Standard e seu impacto no SEO
O Robots Exclusion Standard (RES) nasceu em 1994 de uma proposta de Martijn Koster, engenheiro de software holandês, publicada na lista de discussão www-talk. Na época, os primeiros rastreadores web, como o World Wide Web Wanderer de Matthew Gray (1993) e o primitivo Webcrawler, consumiam tanta largura de banda dos servidores que os administradores precisavam de uma forma de controlá-los. Koster propôs o robots.txt como uma convenção voluntária, e os principais mecanismos de busca da época (ALIWEB, o primeiro a usar ativamente o arquivo, seguido por WebCrawler, AltaVista e Yahoo) o adotaram rapidamente.
Em 2019, o Google enviou uma especificação formal do Robots Exclusion Protocol (REP) como RFC 9309, publicada definitivamente pelo IETF em 2022. Essa formalização, quase 30 anos após a proposta original, padronizou aspectos que permaneciam ambíguos, como o comportamento em respostas HTTP 4xx (tratar 404 e 410 como sem restrição, tratar 429 como negação temporária), o limite de tamanho do arquivo (máximo de 500 kibibytes conforme a RFC), a ordem de precedência das regras Allow e Disallow, e a sensibilidade a maiúsculas nos caminhos.
Um robots.txt mal configurado pode ter consequências devastadoras no SEO. Em 2006, o Google acidentalmente desindexou parte do próprio site devido a um erro no robots.txt. Em 2013, a Expedia perdeu visibilidade orgânica significativa por um bloqueio acidental. Em 2020, vários sites de grande porte sofreram quedas de tráfego orgânico por erros semelhantes durante migrações. A diretiva Disallow: / (bloqueio de todo o site) aparece no robots.txt por padrão em muitos CMSs durante o desenvolvimento, e esquecer de revertê-la em produção é um erro clássico que os auditores de SEO verificam em primeiro lugar. O Google Search Console inclui uma ferramenta de teste do robots.txt que permite verificar se uma URL específica pode ser rastreada antes de enviar as alterações ao servidor.