File robots.txt memberi tahu crawler mesin telusur URL mana yang dapat diakses di situs kamu. File ini digunakan terutama agar situs kamu terhindar dari beban permintaan yang terlalu banyak.
Perlu diketahui file ini bukanlah mekanisme untuk menyembunyikan halaman web dari Google. Untuk menyembunyikan halaman dari Google, blokir pengindeksan dengan noindex atau lindungi halaman dengan sandi. Selain itu, kamu dapat mengatur semua ekstensi file yang tidak kamu kehendaki tampil di hasil penelusuran seperti file pdf, gambar, video, gif, dan file non-HTML lainnya.
Jangan gunakan file robots.txt untuk menyembunyikan halaman web kamu dari hasil penelusuran Google. Jika halaman lain mengarah ke halaman kamu dengan teks deskriptif, Google masih dapat mengindeks URL tanpa mengunjungi halaman. Jika kamu ingin memblokir halaman kamu dari hasil penelusuran, gunakan metode lain seperti perlindungan dengan sandi atau noindex.
Jika halaman web kamu diblokir dengan file robots.txt, URL tersebut masih dapat muncul di hasil penelusuran, tetapi hasil penelusuran tersebut tidak akan memiliki deskripsi.
Beberapa Batasan robots.txt
- Perintah robots.txt mungkin tidak didukung oleh search engine tertentu.
- Crawler yang berbeda menafsirkan sintaks dengan cara yang berbeda.
- Halaman yang tidak diizinkan dalam robots.txt masih dapat diindeks jika ditautkan dari situs lainnya.
Sigkatnya, robots.txt digunakan terutama untuk mengelola traffic crawler atau cangkupan ke situs kamu, dan biasanya menyembunyikan halaman dari Google, bergantung pada jenis filenya.
Sebelum dilanjut membuat robots.txt, alangkah baiknya (harus bro) kalian membaca sedikit detail megenai cara kerja dan pembuatan file robots.txt disini https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=id.
Membuat robots.txt
Jika kamu menggunakan blogger, sebenarnya tidak perlu menyeting robots txt pada situs kamu. Namun opsional saja jika ingin menerapkan kustom robots.txt pada blog kamu.
Pertama, kalian masuk ke menu setting atau setelan. Kemudian pada bagian "Crawler dan pengindeksan" nyalakan aktifkan robots.txt. Dilanjut copy paste teks dibawah ini sebagai robots.txt kustom. Setelahnya jangan lupa simpan.
User-agent: * Allow: / Disallow: /search Sitemap: https://frmfox.blogspot.com/sitemap.xml
Disini saya memang sengaja menambahkan disallow pada search, untuk mencegah konten duplikat dan rawan terkena pelanggaran dari mesin pencari. Dan untuk sitemap kalian tinggal menggantinya dengan url sitemap blog kamu. Just info, disini sitemap yang digunakan adalah sitemap.xml. Bukan halaman sitemap seperti pada https://frmfox.blogspot.com/p/sitemap.html.
Jika ingin mengecualikan halaman agar tidak dicrawl atau dirayapi mesin pencari, kalian hanya cukup menambahkan disallow dibawahnya seperti berikut.
User-agent: * Allow: / Disallow: /search Disallow: /1990/cerita-dilan.html Disallow: /p/info.html Sitemap: https://frmfox.blogspot.com/sitemap.xml
Dengan setting allow tersebut berarti mengizinkan crawl pada halaman index atau biasa dilambangkan sebagai /. Dan ke-3 disallow tersebut menunjukkan bahwa halaman tersebutlah yang dilarang untuk dirayapi oleh robot mesin pencari.
Sekian dulu, Memahami dan Cara Setting robots.txt di Blogger dan Website. Semoga bermanfaat.