File robots.txt sering dianggap sepele karena ukurannya kecil dan isinya cuma baris-baris aturan sederhana. Padahal, perannya cukup penting dalam pengelolaan SEO sebuah website. Lewat file ini, kita bisa memberi instruksi kepada mesin pencari tentang bagian mana saja dari website yang boleh di-crawl dan mana yang sebaiknya dilewati.
Tanpa pengaturan yang tepat, risiko seperti halaman sensitif ikut terindeks atau crawl budget terbuang sia-sia bisa terjadi. Artikel ini akan membahas dasar-dasar robots.txt, fungsinya, sampai cara mengaturnya dengan benar agar website lebih terarah di mata mesin pencari.
Apa Itu Robots.txt?
Robots.txt adalah sebuah file teks sederhana yang diletakkan di folder utama sebuah website (misalnya namadomain.com/robots.txt
). Fungsinya untuk memberi tahu mesin pencari, seperti Googlebot atau Bingbot, bagian mana dari website yang boleh mereka jelajahi dan mana yang sebaiknya diabaikan.
File ini bekerja seperti papan petunjuk di pintu masuk. Begitu crawler datang, mereka akan membaca aturan di robots.txt sebelum menjelajah isi website. Kalau ada folder atau halaman tertentu yang diberi aturan “Disallow”, maka bot tidak akan meng-crawl bagian tersebut.
Meskipun terlihat sepele, robots.txt punya dampak besar terhadap bagaimana website ditampilkan di hasil pencarian. Makanya, memahami cara kerjanya jadi langkah awal yang penting sebelum mulai mengutak-atik pengaturannya. Kalau ingin penjelasan teknis yang lebih lengkap, kamu bisa merujuk ke panduan resmi robots.txt dari Google.
Fungsi Robots.txt dalam SEO
File robots.txt membantu mesin pencari bekerja lebih efisien dalam memahami website. Beberapa fungsi utamanya antara lain:
- Mengatur halaman yang boleh di-crawl
Kita bisa mengizinkan bot untuk menjelajahi halaman penting (seperti artikel atau produk), sekaligus melarang mereka mengakses halaman yang tidak relevan untuk publik. - Mencegah duplikat konten terindeks
Misalnya halaman dengan parameter URL atau versi print. Dengan aturan di robots.txt, kita bisa mencegah halaman semacam ini muncul di hasil pencarian. - Menghemat crawl budget
Untuk website besar, Google hanya akan menjelajahi sejumlah halaman dalam satu waktu. Robots.txt membantu memastikan bot fokus pada halaman yang memang penting. - Menghindari halaman sensitif tampil di pencarian
Folder admin, file konfigurasi, atau halaman testing sebaiknya tidak bisa diakses bot. Robots.txt bisa memberi arahan agar bagian tersebut tidak ikut di-crawl.
Catatan penting: robots.txt hanya memberi instruksi pada bot, bukan cara untuk mengamankan data. Kalau ada halaman yang benar-benar harus privat, gunakan proteksi password atau pengaturan server, bukan robots.txt.
Struktur Dasar Robots.txt
Meski hanya berupa file teks sederhana, robots.txt punya aturan dasar yang cukup jelas. Ada beberapa elemen utama yang biasanya dipakai:
- User-agent
Menentukan bot mesin pencari mana yang dituju. ContohnyaUser-agent: *
artinya aturan berlaku untuk semua bot. - Disallow
Digunakan untuk melarang bot mengakses halaman atau folder tertentu. Misalnya:Disallow: /wp-admin/
berarti bot tidak boleh menjelajahi folder/wp-admin/
. - Allow
Memungkinkan bot tetap mengakses halaman tertentu meski berada di dalam folder yang diblokir. Misalnya:Allow: /wp-admin/admin-ajax.php
- Sitemap
Opsional, tapi sangat dianjurkan. Aturan ini memberitahu bot lokasi sitemap website, misalnya:Sitemap: https://www.namadomain.com/sitemap.xml
Contoh Robots.txt Sederhana
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.namadomain.com/sitemap.xml
Aturan di atas artinya semua bot boleh menjelajahi website, kecuali folder /wp-admin/
. Namun, file admin-ajax.php
tetap boleh diakses.
Cara Membuat dan Setting Robots.txt yang Benar
Membuat file robots.txt sebenarnya nggak ribet. Berikut langkah-langkah yang bisa kamu ikuti:
- Buat file baru di text editor
Gunakan Notepad atau editor sederhana lainnya. Simpan dengan namarobots.txt
. - Tulis aturan sesuai kebutuhan
Masukkan instruksi dasar sepertiUser-agent
,Disallow
,Allow
, atauSitemap
.
Contoh:User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.namadomain.com/sitemap.xml
- Upload ke folder root website
File harus ditempatkan di direktori utama (root) website agar bisa diakses dihttps://namadomain.com/robots.txt
. - Uji dengan Google Search Console
Gunakan fitur “robots.txt Tester” di Search Console untuk memastikan tidak ada aturan yang salah. - Untuk pengguna WordPress
Kalau pakai plugin SEO seperti Rank Math atau Yoast, biasanya sudah ada menu khusus untuk mengedit robots.txt tanpa perlu bikin file manual.
Contoh Setting Robots.txt untuk Berbagai Kebutuhan
Setiap website punya kebutuhan berbeda. Berikut beberapa contoh pengaturan robots.txt yang umum dipakai.
1. Website Kecil atau Blog Pribadi
Biasanya cukup biarkan semua halaman bisa di-crawl oleh bot.
User-agent: *
Disallow:
Sitemap: https://www.namadomain.com/sitemap.xml
Artinya semua bot boleh menjelajahi seluruh halaman website.
2. Website WordPress Standar
Sering digunakan untuk memblokir folder admin agar tidak ikut diindeks.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.namadomain.com/sitemap.xml
3. Website E-Commerce atau Portal Berita
Biasanya ada banyak URL dengan parameter (filter, sort, dsb.) yang tidak perlu diindeks.
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=
Sitemap: https://www.namadomain.com/sitemap.xml
4. Website dengan Kontrol Lebih Detail
Misalnya hanya mengizinkan Googlebot, tapi melarang bot lain.
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Aturan ini artinya hanya Googlebot yang bisa meng-crawl seluruh website, sementara bot lain dilarang.
Kesalahan Umum dalam Menggunakan Robots.txt
- Memblokir semua bot tanpa sengaja
Aturan seperti ini:User-agent: * Disallow: /
akan membuat semua halaman website dilarang di-crawl. Akibatnya, website bisa hilang dari pencarian Google. - Menggunakan robots.txt untuk menyembunyikan data sensitif
Banyak yang salah kaprah dengan menaruh folder penting diDisallow
. Padahal, kalau ada orang tahu URL-nya, halaman itu tetap bisa diakses. Robots.txt bukan alat keamanan. - Lupa menambahkan sitemap
Padahal aturanSitemap:
membantu mesin pencari menemukan halaman penting dengan lebih cepat. Ini sering dilupakan, padahal efeknya cukup signifikan untuk SEO. - Over-optimasi dengan terlalu banyak aturan
Menulis aturan berlebihan justru bisa bikin crawler bingung. Fokus saja pada folder atau halaman yang benar-benar perlu dibatasi.
Cara Mengecek dan Menguji Robots.txt
- Cek langsung di browser
Ketiknamadomain.com/robots.txt
di browser. Kalau file sudah ada, isinya akan langsung tampil. - Gunakan Google Search Console
Di menu lama ada fitur “robots.txt Tester”, sedangkan di versi baru kita bisa cek lewat laporan “Coverage” untuk melihat halaman yang terblokir oleh robots.txt. - Periksa dengan tool pihak ketiga
Beberapa tool SEO seperti Screaming Frog atau Ahrefs bisa membantu mendeteksi aturan robots.txt yang mungkin menghalangi crawling halaman penting. - Review secara berkala
Jangan anggap sekali setting selesai selamanya. Aturan di robots.txt sebaiknya dicek ulang secara rutin, apalagi kalau ada perubahan struktur website.
Penutup
Robots.txt memang hanya file kecil dengan baris aturan sederhana, tapi dampaknya bisa besar untuk SEO sebuah website. Dengan pengaturan yang tepat, kita bisa mengarahkan bot mesin pencari untuk fokus ke halaman yang penting, menghindari duplikat konten, dan menjaga agar bagian sensitif tidak ikut terindeks.
Hal yang perlu diingat, robots.txt bukanlah alat keamanan. Jadi jangan gunakan file ini untuk menyembunyikan data penting. Cukup manfaatkan sesuai fungsinya: memberi arahan pada bot agar proses crawling lebih efisien.
Kalau kamu belum pernah mengecek robots.txt di websitemu, sekarang waktu yang pas untuk melakukannya. Coba lihat di namadomain.com/robots.txt
, lalu pastikan aturan yang ada sudah sesuai kebutuhan. Langkah sederhana ini bisa jadi fondasi penting buat performa SEO jangka panjang, sekaligus bagian dari Technical SEO yang mendukung kesehatan keseluruhan website.