Robots.txt: Panduan Lengkap Fungsi & Cara Setting yang Benar untuk SEO

Jamey

Last Update:
Ilustrasi Panduan Cara Setting dan Fungsi Robots.txt

File robots.txt sering dianggap sepele karena ukurannya kecil dan isinya cuma baris-baris aturan sederhana. Padahal, perannya cukup penting dalam pengelolaan SEO sebuah website. Lewat file ini, kita bisa memberi instruksi kepada mesin pencari tentang bagian mana saja dari website yang boleh di-crawl dan mana yang sebaiknya dilewati.

Tanpa pengaturan yang tepat, risiko seperti halaman sensitif ikut terindeks atau crawl budget terbuang sia-sia bisa terjadi. Artikel ini akan membahas dasar-dasar robots.txt, fungsinya, sampai cara mengaturnya dengan benar agar website lebih terarah di mata mesin pencari.

Apa Itu Robots.txt?

Robots.txt adalah sebuah file teks sederhana yang diletakkan di folder utama sebuah website (misalnya namadomain.com/robots.txt). Fungsinya untuk memberi tahu mesin pencari, seperti Googlebot atau Bingbot, bagian mana dari website yang boleh mereka jelajahi dan mana yang sebaiknya diabaikan.

File ini bekerja seperti papan petunjuk di pintu masuk. Begitu crawler datang, mereka akan membaca aturan di robots.txt sebelum menjelajah isi website. Kalau ada folder atau halaman tertentu yang diberi aturan “Disallow”, maka bot tidak akan meng-crawl bagian tersebut.

Meskipun terlihat sepele, robots.txt punya dampak besar terhadap bagaimana website ditampilkan di hasil pencarian. Makanya, memahami cara kerjanya jadi langkah awal yang penting sebelum mulai mengutak-atik pengaturannya. Kalau ingin penjelasan teknis yang lebih lengkap, kamu bisa merujuk ke panduan resmi robots.txt dari Google.

Fungsi Robots.txt dalam SEO

File robots.txt membantu mesin pencari bekerja lebih efisien dalam memahami website. Beberapa fungsi utamanya antara lain:

  1. Mengatur halaman yang boleh di-crawl
    Kita bisa mengizinkan bot untuk menjelajahi halaman penting (seperti artikel atau produk), sekaligus melarang mereka mengakses halaman yang tidak relevan untuk publik.
  2. Mencegah duplikat konten terindeks
    Misalnya halaman dengan parameter URL atau versi print. Dengan aturan di robots.txt, kita bisa mencegah halaman semacam ini muncul di hasil pencarian.
  3. Menghemat crawl budget
    Untuk website besar, Google hanya akan menjelajahi sejumlah halaman dalam satu waktu. Robots.txt membantu memastikan bot fokus pada halaman yang memang penting.
  4. Menghindari halaman sensitif tampil di pencarian
    Folder admin, file konfigurasi, atau halaman testing sebaiknya tidak bisa diakses bot. Robots.txt bisa memberi arahan agar bagian tersebut tidak ikut di-crawl.

Catatan penting: robots.txt hanya memberi instruksi pada bot, bukan cara untuk mengamankan data. Kalau ada halaman yang benar-benar harus privat, gunakan proteksi password atau pengaturan server, bukan robots.txt.

Struktur Dasar Robots.txt

Meski hanya berupa file teks sederhana, robots.txt punya aturan dasar yang cukup jelas. Ada beberapa elemen utama yang biasanya dipakai:

  1. User-agent
    Menentukan bot mesin pencari mana yang dituju. Contohnya User-agent: * artinya aturan berlaku untuk semua bot.
  2. Disallow
    Digunakan untuk melarang bot mengakses halaman atau folder tertentu. Misalnya: Disallow: /wp-admin/ berarti bot tidak boleh menjelajahi folder /wp-admin/.
  3. Allow
    Memungkinkan bot tetap mengakses halaman tertentu meski berada di dalam folder yang diblokir. Misalnya: Allow: /wp-admin/admin-ajax.php
  4. Sitemap
    Opsional, tapi sangat dianjurkan. Aturan ini memberitahu bot lokasi sitemap website, misalnya: Sitemap: https://www.namadomain.com/sitemap.xml

Contoh Robots.txt Sederhana

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.namadomain.com/sitemap.xml

Aturan di atas artinya semua bot boleh menjelajahi website, kecuali folder /wp-admin/. Namun, file admin-ajax.php tetap boleh diakses.

Cara Membuat dan Setting Robots.txt yang Benar

Membuat file robots.txt sebenarnya nggak ribet. Berikut langkah-langkah yang bisa kamu ikuti:

  1. Buat file baru di text editor
    Gunakan Notepad atau editor sederhana lainnya. Simpan dengan nama robots.txt.
  2. Tulis aturan sesuai kebutuhan
    Masukkan instruksi dasar seperti User-agent, Disallow, Allow, atau Sitemap.
    Contoh: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.namadomain.com/sitemap.xml
  3. Upload ke folder root website
    File harus ditempatkan di direktori utama (root) website agar bisa diakses di https://namadomain.com/robots.txt.
  4. Uji dengan Google Search Console
    Gunakan fitur “robots.txt Tester” di Search Console untuk memastikan tidak ada aturan yang salah.
  5. Untuk pengguna WordPress
    Kalau pakai plugin SEO seperti Rank Math atau Yoast, biasanya sudah ada menu khusus untuk mengedit robots.txt tanpa perlu bikin file manual.

Contoh Setting Robots.txt untuk Berbagai Kebutuhan

Setiap website punya kebutuhan berbeda. Berikut beberapa contoh pengaturan robots.txt yang umum dipakai.

1. Website Kecil atau Blog Pribadi

Biasanya cukup biarkan semua halaman bisa di-crawl oleh bot.

User-agent: *
Disallow:
Sitemap: https://www.namadomain.com/sitemap.xml

Artinya semua bot boleh menjelajahi seluruh halaman website.

2. Website WordPress Standar

Sering digunakan untuk memblokir folder admin agar tidak ikut diindeks.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.namadomain.com/sitemap.xml

3. Website E-Commerce atau Portal Berita

Biasanya ada banyak URL dengan parameter (filter, sort, dsb.) yang tidak perlu diindeks.

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?filter=
Sitemap: https://www.namadomain.com/sitemap.xml

4. Website dengan Kontrol Lebih Detail

Misalnya hanya mengizinkan Googlebot, tapi melarang bot lain.

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Aturan ini artinya hanya Googlebot yang bisa meng-crawl seluruh website, sementara bot lain dilarang.

Kesalahan Umum dalam Menggunakan Robots.txt

  1. Memblokir semua bot tanpa sengaja
    Aturan seperti ini: User-agent: * Disallow: / akan membuat semua halaman website dilarang di-crawl. Akibatnya, website bisa hilang dari pencarian Google.
  2. Menggunakan robots.txt untuk menyembunyikan data sensitif
    Banyak yang salah kaprah dengan menaruh folder penting di Disallow. Padahal, kalau ada orang tahu URL-nya, halaman itu tetap bisa diakses. Robots.txt bukan alat keamanan.
  3. Lupa menambahkan sitemap
    Padahal aturan Sitemap: membantu mesin pencari menemukan halaman penting dengan lebih cepat. Ini sering dilupakan, padahal efeknya cukup signifikan untuk SEO.
  4. Over-optimasi dengan terlalu banyak aturan
    Menulis aturan berlebihan justru bisa bikin crawler bingung. Fokus saja pada folder atau halaman yang benar-benar perlu dibatasi.

Cara Mengecek dan Menguji Robots.txt

  1. Cek langsung di browser
    Ketik namadomain.com/robots.txt di browser. Kalau file sudah ada, isinya akan langsung tampil.
  2. Gunakan Google Search Console
    Di menu lama ada fitur “robots.txt Tester”, sedangkan di versi baru kita bisa cek lewat laporan “Coverage” untuk melihat halaman yang terblokir oleh robots.txt.
  3. Periksa dengan tool pihak ketiga
    Beberapa tool SEO seperti Screaming Frog atau Ahrefs bisa membantu mendeteksi aturan robots.txt yang mungkin menghalangi crawling halaman penting.
  4. Review secara berkala
    Jangan anggap sekali setting selesai selamanya. Aturan di robots.txt sebaiknya dicek ulang secara rutin, apalagi kalau ada perubahan struktur website.

Penutup

Robots.txt memang hanya file kecil dengan baris aturan sederhana, tapi dampaknya bisa besar untuk SEO sebuah website. Dengan pengaturan yang tepat, kita bisa mengarahkan bot mesin pencari untuk fokus ke halaman yang penting, menghindari duplikat konten, dan menjaga agar bagian sensitif tidak ikut terindeks.

Hal yang perlu diingat, robots.txt bukanlah alat keamanan. Jadi jangan gunakan file ini untuk menyembunyikan data penting. Cukup manfaatkan sesuai fungsinya: memberi arahan pada bot agar proses crawling lebih efisien.

Kalau kamu belum pernah mengecek robots.txt di websitemu, sekarang waktu yang pas untuk melakukannya. Coba lihat di namadomain.com/robots.txt, lalu pastikan aturan yang ada sudah sesuai kebutuhan. Langkah sederhana ini bisa jadi fondasi penting buat performa SEO jangka panjang, sekaligus bagian dari Technical SEO yang mendukung kesehatan keseluruhan website.

Bagikan:

Foto Profile Penulis Blog Jamey.id

Related Post