Generator robots.txt Online
Hasilkan robots.txt yang benar dan hindari kesalahan crawling yang merusak SEO Anda.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
Mengapa ini penting
Robots.txt yang benar melindungi SEO Anda
Tanpa kesalahan sintaks
Hasilkan file yang valid dengan sintaks tepat yang diharapkan mesin pencari.
Hindari de-indexing
Konfigurasi aturan yang benar agar Anda tidak sengaja memblokir CSS, JS, atau halaman penting.
Sertakan direktif Sitemap
Tambahkan URL sitemap Anda agar Googlebot menemukan konten Anda lebih cepat.
Tanpa registrasi
Hasilkan dan unduh robots.txt Anda tanpa membuat akun apa pun.
Cara kerjanya
Tiga langkah, tanpa kerumitan
Konfigurasi aturan Anda
Pilih bot (Googlebot, Bingbot, semua) dan tentukan jalur mana yang diizinkan atau dilarang. Tambahkan URL sitemap jika Anda memilikinya.
Pratinjau filenya
Generator membangun robots.txt secara real time. Tinjau bahwa aturannya persis seperti yang Anda butuhkan.
Unduh dan unggah ke server Anda
Salin kontennya atau unduh filenya. Unggah ke root domain Anda sebagai /robots.txt.
FAQ
Ada pertanyaan?
Robots.txt adalah file teks biasa yang ditempatkan situs web di direktori root mereka untuk memberi tahu crawler mesin pencari (bot) halaman atau bagian mana yang tidak boleh mereka kunjungi. File ini diusulkan oleh Martijn Koster pada tahun 1994 sebagai bagian dari Robots Exclusion Standard, konvensi informal yang dengan cepat diadopsi oleh semua mesin pencari utama. Google, Bing, Yahoo, dan hampir semua bot secara sukarela menghormati file ini.
Tidak. Ini adalah kesalahpahaman paling umum. Robots.txt mengontrol crawling, bukan pengindeksan. Mesin pencari dapat mengindeks URL yang diblokir dalam robots.txt jika menemukan link ke sana dari halaman lain. Untuk benar-benar mencegah pengindeksan, Anda harus menggunakan tag meta robots dengan konten noindex atau header HTTP X-Robots-Tag: noindex pada halaman itu sendiri.
Yang paling sering adalah: (1) memblokir file CSS dan JavaScript, ini mencegah Googlebot merender halaman Anda dengan benar dan dapat merugikan peringkat; (2) menggunakan robots.txt untuk menyembunyikan halaman dengan informasi sensitif, ini bukan mekanisme keamanan; (3) sintaks yang salah (kesalahan kapitalisasi, spasi ekstra), file ini case-sensitive untuk jalur; (4) tidak menambahkan direktif Sitemap, yang membantu mesin pencari menemukan konten Anda.
Google menghormati direktif standar User-agent, Disallow, dan Allow, ditambah beberapa ekstensi: Crawl-delay (meskipun Google secara resmi mengabaikannya dan lebih memilih menyesuaikan laju crawl melalui Search Console), direktif Sitemap (untuk mendeklarasikan URL sitemap XML), dan wildcard * dalam jalur. Google juga membaca header HTTP X-Robots-Tag untuk instruksi tingkat dokumen, termasuk pada sumber daya non-HTML seperti PDF dan gambar.
Direktif Sitemap: https://example.com/sitemap.xml di dalam robots.txt memberi tahu crawler di mana menemukan sitemap XML situs. Ini adalah metode penemuan yang melengkapi pendaftaran di Google Search Console. Anda dapat mendeklarasikan beberapa sitemap dalam robots.txt yang sama. Meskipun bukan bagian dari standar asli 1994, semua mesin pencari utama mengenalinya.
Robots.txt: Robots Exclusion Standard dan dampaknya terhadap SEO
Robots Exclusion Standard (RES) lahir pada tahun 1994 dari proposal Martijn Koster, seorang insinyur perangkat lunak Belanda, yang diterbitkan di milis www-talk. Pada saat itu, crawler web pertama seperti World Wide Web Wanderer milik Matthew Gray (1993) dan Webcrawler primitif mengonsumsi begitu banyak bandwidth server sehingga administrator membutuhkan cara untuk mengendalikannya. Koster mengusulkan robots.txt sebagai konvensi sukarela, dan mesin pencari utama era itu (ALIWEB, yang pertama kali secara aktif menggunakan file tersebut, diikuti oleh WebCrawler, AltaVista, dan Yahoo) dengan cepat mengadopsinya.
Pada tahun 2019, Google menyerahkan spesifikasi formal Robots Exclusion Protocol (REP) sebagai RFC 9309, yang akhirnya diterbitkan oleh IETF pada tahun 2022. Formalisasi ini, hampir 30 tahun setelah proposal asli, menstandarisasi aspek yang tetap ambigu, seperti perilaku pada respons HTTP 4xx (anggap 404/410 sebagai tidak dibatasi, anggap 429 sebagai sementara ditolak), batas ukuran file (maksimum 500 kibibyte per RFC), urutan prioritas aturan Allow/Disallow, dan sensitivitas huruf besar/kecil pada jalur.
Robots.txt yang salah dikonfigurasi dapat memiliki konsekuensi SEO yang dahsyat. Pada tahun 2006, Google secara tidak sengaja menghapus indeks sebagian situsnya sendiri karena kesalahan robots.txt. Pada tahun 2013, Expedia kehilangan visibilitas organik yang signifikan dari pemblokiran yang tidak disengaja. Pada tahun 2020, beberapa situs besar mengalami penurunan lalu lintas organik dari kesalahan serupa selama migrasi. Direktif Disallow: / (memblokir seluruh situs) muncul dalam robots.txt secara default di banyak CMS selama pengembangan, dan lupa mengubahnya kembali dalam produksi adalah kesalahan klasik yang pertama kali diperiksa auditor SEO. Google Search Console menyertakan alat pengujian robots.txt yang memungkinkan Anda memverifikasi apakah URL tertentu dapat di-crawl sebelum mendorong perubahan ke server.