Solusi Sitemap Tidak Terbaca oleh Webmaster Tool

Sitemap merupakan salah satu alat untuk mempermudah pengindekan halaman situs di mesin pencari. Mesin pencari ini termasuk Google, Yahoo, Bing, Yandex, Baidu, dan lain sebagainya. Kamu bisa mendaftarkan halaman situs kamu dengan menggunakan salah satu format sitemap, seperti XML, RSS, atom, txt, atau format lain yang dikenali oleh mesin pencari melalui Webmaster Tool.​[1]​

Sebenarnya, kamu bisa juga mendaftarkan halaman situs satu-persatu ke mesin pencari melalui Webmaster Tool. Namun hal ini tidak praktis, apalagi jika halaman situs sangat banyak, hingga ribuan. Dalam hal ini, sitemap merupakan jalan termudah untuk mendaftarkan setiap halaman situs kamu.

Namun, penggunaan sitemap tidak 100% bebas kesalahan (error). Sering sekali admin situs mengalami hal yang tidak terduga. Seperti sitemap tidak dapat diakses atau dibaca oleh Webmaster Tool pada beberapa mesin pencari.

Nah pada artikel ini, khusus membahas solusi sitemap yang tidak terbaca karena error 403. Dengan kata lain, Webmaster Tool tidak mendapatkan ijin untuk mengakses halaman sitemap kamu. Namun hal ini bisa diterapkan di jenis error lainnya seperti 404.

Pemberitahuan sitemap tidak dapat dibaca oleh Google Search Console
Gambar 1. Pemberitahuan sitemap tidak dapat dibaca oleh Google Search Console

1. Memeriksa akses ke sitemap

Ada beberapa cara untuk memeriksa akses bot mesin pencari ke sitemap kamu. Kamu bisa menggunakan beberapa website penyedia layanan pemeriksaan bot, atau bisa juga menggunakan chrome dengan mengubah user agentnya. Umumnya layanan tersebut khusus untuk sitemap dengan format XML. Namun tidak ada salahnya kamu coba jika menggunakan sitemap dengan format selain XML.

A. Melalui situs pemeriksa sitemap

Ada banyak situs online menyediakan layanan untuk memeriksa akses sitemap. Beberapa diantaranya yaitu:

B. Menggunakan Browser Chrome

Selain menggunakan layanan situs online, kita juga bisa menggunakan Browser Chrome (jika kamu memilikinya). Namun kamu sebaiknya menggunakannya di komputer desktop. Kemungkinan besar kamu akan kesulitan jika menggunakan Browser Chrome di Ponsel mu (jika bisa).

Chrome dapat mengubah user agentnya menjadi Googlebot. Berdasar informasi dari Google, bahwa crawler pengindeks Google menggunakan beberapa jenis user agent. Bahkan Googlebot merupakan crawler utamanya.​[2]​

Yang pertama, buka developer tools terlebih dahulu, caranya yaitu:

  1. buka Browser Chrome,
  2. klik menu atau tombol di pojok kanan atas,
  3. pilih More tools > Developer tools.

Maka kamu akan melihat tampilan seperti pada Gambar 2 di bawah ini, di Browser Chrome kamu.

Developer tools pada Browser Chrome
Gambar 2. Developer tools pada Browser Chrome

Setelah itu, kamu perlu mengubah user agent pada Browser Chrome kamu. Caranya yaitu:

  1. klik tombol di pojok kiri bawah (di menu bawah dekat tab Console),
  2. klik Network conditions,
  3. pada kotak user agent, hilangkan centang pada Select automatically,
  4. lalu pilih Googlebot pada opsi dropdown.

Setelah mengubah user agent, maka kamu dapat mulai memeriksa situs kamu. Periksa apakah kamu dapat mengakses sitemap kamu menggunakan browser seperti pada Gambar 3.

Pemeriksaan akses googlebot menggunakan chrome
Gambar 3. Pemeriksaan akses googlebot menggunakan chrome

C. Menunggu crawling mesin pencari

Apabila pemeriksaan pada point A dan B diatas memberikan hasil yang sukses. Dalam artian, tidak ada masalah akses menuju sitemap. Maka, kamu cukup menunggu pembacaan selanjutnya oleh crawler mesin pencari.

Pemeriksaan sitemap tidak menunjukkan masalah (kode respon 200)
Gambar 4. Pemeriksaan sitemap tidak menunjukkan masalah (kode respon 200)

Dalam kasus Webmaster Tool milik Google, statusnya kadang tidak sesuai. Bahkan saya pernah mencoba mengirim ulang sitemap, muncul error “couldn’t fetch“. Namun saat diperiksa menggunakan point A dan B diatas tidak ada masalah. Maka, tinggal menunggu tanggal “last read” terbaru. Umumnya tidak ada masalah setelah itu.

Tunggu tanggal "last read" terbaru
Gambar 5. Tunggu tanggal “last read” terbaru

2. Mengatasi akses 403 pada sitemap

Jika kamu memiliki masalah error 403 pada Google Search Console atau webmaster tool lainnya, berikut ada beberapa cara yang mungkin dapat membantumu mengatasi masalah tersebut.

Namun sebelum kamu mulai mencoba mengatasi masalah sitemap, lakukan backup pada keseluruhan situs kamu!

A. Pemeriksaan manual menggunakan browser

Sebelum mencoba berbagai hal teknis lainnya, cobalah untuk membuka sitemap kamu secara manual. cukup masukkan URL/alamat sitemap di address bar kamu.

Jika kamu tidak dapat membuka URL sitemap kamu dibrowser dan mendapatkan error 404, maka ada beberapa hal yang tidak sesuai:

  • Salah memasukkan URL sitemap; cobalah untuk memeriksa kembali URL sitemap kamu
  • Sitemap tidak digenerate oleh situs; Jika kamu menggunakan CMS seperti WordPress atau semacamnya, mungkin pengaturan plugin sitemap kamu bermasalah. Atau bisa juga kamu belum memiliki plugin yang menyediakan sitemap.

Catatan: jika kamu menggunakan chrome dan mengubah user agent seperti pada Bab 1B di atas, maka terlebih dahulu ubah kembali user agent dengan memberikan centang pada Select automatically.

B. Periksa robot.txt dan .htaccess

Crawler seperti Googlebot, tidak dapat membaca sitemap apabila mereka diblokir oleh berkas robot.txt atau .htaccess.​[3]​ Sebelum kamu merubah robot.txt atau .htaccess, pastikan kamu sudah memiliki backup.

Berikut contoh pengaturan robot.txt yang memblokir Googlebot:​[4]​

User-agent: Googlebot
Disallow: /

Pada kode di atas, berarti user agent Googlebot tidak boleh mengakses seluruh situs, yang tertulis pada aturan Disallow. Jika kamu ingin memperbolehkan Googlebot untuk mengakses situsmu, maka hapus 2 baris berurutan tersebut.

Selain itu, periksa juga berkas .htaccess, apakah ada kode berikut:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} yandexbot
RewriteRule ^.*$ "https\:\/\/www\.indowhiz\.com" [R=301,L]

Jika ada, mungkin kamu perlu menghapusnya sementara. Setelah itu periksa kembali aksesnya menggunakan website atau Chrome seperti pada Bab 1 di atas.

Jika cara ini tidak mengatasi masalah akses error 403, maka kembalikan isi berkas robot.txt atau .htaccess seperti semula.

C. Periksa pengaturan CDN

Content Delivery Network (CDN), disediakan oleh beberapa situs terkenal seperti Google Cloud CDN, AWS, Cloudflare, QUIC.cloud, atau CDN lainnya. Terkadang beberapa masalah muncul karena cache, firewall, ataupun pengaturan pada CDN.

Oleh sebab itu, cobalah untuk sementara menonaktifkan CDN. Setelah itu periksa kembali aksesnya menggunakan website atau Chrome seperti pada Bab 1 di atas.

Apabila sitemap dapat diakses setelah CDN dinonaktifkan, maka kemungkinan firewall pada CDN memblokir akses Googlebot. Kamu mungkin perlu meminta bantuan dari penyedia CDN, apabila kamu tidak mampu mengatur firewall CDN.

Namun, jika menonaktifkan CDN tidak mengatasi masalah akses error 403, maka aktifkan kembali CDN kamu seperti semula.

D. Plugin keamanan CMS

Penggunaan CMS seperti WordPress atau semacamnya, terkadang disertai dengan memasang plugin keamanan seperti Wordfence, Sucuri, iThemes, atau plugin sejenis lainnya. Namun hal ini sering menjadi bumerang bagi admin website.

Jika kamu memasang plugin keamanan, cobalah untuk sementara menonaktifkan plugin tersebut. Setelah itu periksa kembali aksesnya menggunakan website atau Chrome seperti pada Bab 1 di atas.

Apabila sitemap dapat diakses setelah plugin keamanan CMS dinonaktifkan, maka kemungkinan pengaturan plugin tersebut memblokir akses Googlebot. Cobalah untuk memeriksa beberapa pengaturannya. Jika kamu tidak dapat mengatasinya, kamu mungkin perlu meminta bantuan dari penyedia plugin.

Namun, jika menonaktifkan plugin keamanan tidak mengatasi masalah akses error 403, maka aktifkan kembali plugin keamanan kamu seperti semula.

E. Pengaturan ModSecurity

Penggunaan CPanel atau sejenisnya, biasanya disertai dengan pemasangan aplikasi firewall web (web application firewall/WAF) seperti ModSecurity, Imunify360, dan lain-lain. ModSecurity sering memblokir akses-akses bot seperti Googlebot, karena dianggap sebagai spam atau bot berbahaya.

Jika kamu atau hosting provider kamu memasang ModSecurity, cobalah untuk sementara menonaktifkannya. Setelah itu periksa kembali aksesnya menggunakan website atau Chrome seperti pada Bab 1 di atas.

Apabila sitemap dapat diakses setelah ModSecurity dinonaktifkan, maka kemungkinan pengaturan ModSecurity tersebut memang sedang memblokir akses Googlebot. Jika kamu hanya bisa mengaktifkan/menon-aktifkannya, dan tidak dapat mengubah pengaturannya, mungkin kamu dapat meminta hosting provider untuk mengaturnya.

Umumnya CDN memberikan perlindungan melalui WAF-nya, namun kamu perlu memeriksa CDN yang kamu gunakan. Jika kamu sudah menggunakan CDN yang memiliki WAF aktif, kamu bisa menonaktifkan ModSecurity secara permanen.

Namun, jika menonaktifkan ModSecurity tidak mengatasi masalah akses error 403, maka aktifkan kembali ModSecurity seperti semula.

F. Meminta bantuan penyedia hosting

Mungkin kamu sudah mencoba semua cara di atas satu-persatu. Namun, tidak ada satupun yang mengatasi masalah 403. Maka, kamu bisa mencoba sementara poin B, C, D, dan E secara bersamaan. Artinya, merubah robot.txt dan .htaccess, serta menonaktifkan CDN, plugin keamanan CMS, dan ModSecurity. Setelah itu periksa kembali aksesnya menggunakan website atau Chrome seperti pada Bab 1 di atas.

Jika sitemap sudah dapat diakses oleh Googlebot, cobalah untuk mengaktifkannya satu-persatu. Karena ada kemungkinan dua atau lebih pengaturan yang memblokir akses Googlebot. Jangan lupa untuk mengembalikan pengaturan seperti semula pada poin B, C, D, dan E, apabila kamu sudah atau tidak menemukan penyebabnya.

Ada kalanya, meski sudah menonaktifkan seluruh keamanan situs, dan sitemap tetap tidak dapat diakses Googlebot. Maka jika itu terjadi, maka kamu perlu bantuan dari penyedia hosting kamu untuk menyelesaikan masalah tersebut. Atau kamu juga bisa meminta bantuan profesional di bidang website dan internet untuk menyelesaikan masalah kamu.

Referensi

  1. [1]
    Google, “Mengelola peta situs Anda: Laporan peta situs,” Bantuan Search Console. https://support.google.com/webmasters/answer/7451001?hl=id (accessed Jun. 19, 2020).
  2. [2]
    Google, “Ringkasan crawler Google (agen-pengguna),” Bantuan Search Console. https://support.google.com/webmasters/answer/1061943?hl=id (accessed Jun. 19, 2020).
  3. [3]
    A. Gent, “How to Check XML Sitemaps are Valid,” DeepCrawl, Apr. 10, 2019. https://www.deepcrawl.com/knowledge/guides/check-xml-sitemaps-are-valid/ (accessed Jun. 19, 2020).
  4. [4]
    Remiz, “Block Google and bots using htaccess and robots.txt,” HTML Remix, May 03, 2011. https://www.htmlremix.com/seo/block-google-and-bots-using-htaccess-and-robots-txt (accessed Jun. 19, 2020).

Written by Philip F. E. Adipraja

Philip saat ini sedang belajar mengatur proyek yang berkaitan dengan perangkat lunak. Mulai menulis untuk berbagi pengetahuan. Namun, sekaligus untuk belajar cara menulis suatu materi pembelajaran sesederhana mungkin.

This article has 1 comment

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.