DocumentiImmaginiMediaStrumenti PDF

Generatore robots.txt Online

Genera un robots.txt corretto ed evita gli errori di crawling che danneggiano la tua SEO.

User-agent: *
Disallow:

Sitemap: https://example.com/sitemap.xml
Processed in your browser

Il robots.txt corretto protegge la tua SEO

Nessun errore di sintassi

Genera un file valido con la sintassi esatta che i motori di ricerca si aspettano.

Evita la de-indicizzazione

Configura regole corrette per non bloccare accidentalmente CSS, JS o pagine importanti.

Include la direttiva Sitemap

Aggiungi l'URL del tuo sitemap affinche Googlebot scopra il tuo contenuto piu rapidamente.

Nessuna registrazione

Genera e scarica il tuo robots.txt senza creare alcun account.

Tre passaggi, senza complicazioni

1

Configura le tue regole

Scegli i bot (Googlebot, Bingbot, tutti) e definisci quali percorsi permettere o vietare. Aggiungi l'URL del tuo sitemap se ne hai uno.

2

Visualizza l'anteprima del file

Il generatore costruisce il robots.txt in tempo reale. Verifica che le regole siano esattamente quelle che ti servono.

3

Scarica e carica sul tuo server

Copia il contenuto o scarica il file. Caricalo nella radice del tuo dominio come /robots.txt.

Hai delle domande?

Robots.txt e un file di testo che i siti web inseriscono nella loro directory radice per indicare ai crawler dei motori di ricerca (bot) quali pagine o sezioni non devono visitare. Fu proposto da Martijn Koster nel 1994 come parte del Robots Exclusion Standard, una convenzione informale rapidamente adottata da tutti i principali motori di ricerca. Google, Bing, Yahoo e praticamente tutti i bot rispettano volontariamente questo file.

No. Questo e il malinteso piu diffuso. Robots.txt controlla il crawling, non l'indicizzazione. Un motore di ricerca puo indicizzare un URL bloccato in robots.txt se trova link ad esso da altre pagine. Per impedire davvero l'indicizzazione, devi usare il tag con attributo name robots e contenuto noindex, oppure l'intestazione HTTP X-Robots-Tag: noindex sulla pagina stessa.

I piu frequenti sono: (1) bloccare file CSS e JavaScript: questo impedisce a Googlebot di renderizzare correttamente le tue pagine e puo penalizzare il ranking; (2) usare robots.txt per nascondere pagine con informazioni sensibili: non e un meccanismo di sicurezza; (3) sintassi errata (errori di maiuscole, spazi in eccesso): il file e case-sensitive per i percorsi; (4) non aggiungere la direttiva Sitemap, che aiuta i motori di ricerca a scoprire il tuo contenuto.

Google rispetta le direttive standard User-agent, Disallow e Allow, piu alcune estensioni: Crawl-delay (sebbene Google la ignori ufficialmente e preferisca regolare il tasso di crawl tramite Search Console), la direttiva Sitemap (per dichiarare l'URL del sitemap XML) e il carattere jolly * nei percorsi. Google legge anche l'intestazione HTTP X-Robots-Tag per le istruzioni a livello di documento, incluso su risorse non HTML come PDF e immagini.

La direttiva Sitemap: https://example.com/sitemap.xml all'interno di robots.txt indica ai crawler dove trovare il sitemap XML del sito. E un metodo di scoperta complementare alla registrazione in Google Search Console. Puoi dichiarare piu sitemap nello stesso robots.txt. Sebbene non facesse parte dello standard originale del 1994, tutti i principali motori di ricerca la riconoscono.

Robots.txt: il Robots Exclusion Standard e il suo impatto SEO

Il Robots Exclusion Standard (RES) nacque nel 1994 da una proposta di Martijn Koster, ingegnere software olandese, pubblicata sulla mailing list www-talk. All'epoca, i primi web crawler, come il World Wide Web Wanderer di Matthew Gray (1993) e il primitivo Webcrawler, consumavano cosi tanta banda server che gli amministratori avevano bisogno di un modo per controllarli. Koster propose robots.txt come convenzione volontaria, e i principali motori di ricerca dell'epoca (ALIWEB, il primo a usare attivamente il file, seguito da WebCrawler, AltaVista e Yahoo) lo adottarono rapidamente.

Nel 2019, Google presento una specifica formale del Robots Exclusion Protocol (REP) come RFC 9309, definitivamente pubblicata dall'IETF nel 2022. Questa formalizzazione, quasi 30 anni dopo la proposta originale, standardizzo aspetti rimasti ambigui, come il comportamento in caso di risposte HTTP 4xx (trattare 404/410 come non limitato, trattare 429 come temporaneamente negato), il limite di dimensione del file (massimo 500 kibibyte secondo la RFC), l'ordine di precedenza delle regole Allow/Disallow e la sensibilita ai caratteri maiuscoli/minuscoli dei percorsi.

Un robots.txt mal configurato puo avere conseguenze SEO devastanti. Nel 2006, Google de-indicesso accidentalmente parte del proprio sito a causa di un errore in robots.txt. Nel 2013, Expedia perse una visibilita organica significativa per un blocco accidentale. Nel 2020, diversi siti di grandi dimensioni subirono cali di traffico organico per errori simili durante le migrazioni. La direttiva Disallow: / (bloccare l'intero sito) appare in robots.txt per impostazione predefinita in molti CMS durante lo sviluppo: dimenticare di rimuoverla in produzione e un errore classico che i revisori SEO verificano per primi. Google Search Console include uno strumento di test per robots.txt che consente di verificare se un URL specifico puo essere scansionato prima di applicare le modifiche al server.