Case Study Custom Robots.txt dan Penggunaannya pada Blogger (2/2)
- Pengenalan dan Fungsi Perintah Robots.txt dan Pengaruhnya pada SEO, bagi yang belum baca, simak terlebih dahulu sebelum membaca bagian ini.
- Case Study dan Penggunaan Robots.txt pada Blogger, yang sedang sobat baca pada halaman ini
Case Study Robots.txt pada Blogger
Setelah sobat mengetahui beberapa hal mengenai perintah robots.txt, saya akan coba presentasikan beberapa hal sebagai upaya melihat efektivitas penggunaan robots.txt pada Blogger.
Sebelumnya, perlu saya sampaikan bagi yang belum tahu, sobat dapat mengakses fitur ini melalui dashboard > settings > search preferences dan lihat bagian bawah pada custom robots.txt. (Note: Jangan melakukan editing dahulu sebelum sobat tahu betul apa yang harus dituliskan).
Sebagai latar belakang, robots.txt sudah terbuat secara otomatis; mengandung perintah default yang sudah diset oleh Blogger. Sobat bisa melihat robots.txt dengan mengakses Google Webmaster Tools, dan lihat pada sub halaman "crawler access". Atau yang lebih mudah, lihat aja langsung file nya dengan menambahkan nama file robots.txt di belakang url blog. http://blogmu.blogspot.com/robots.txt, contoh : http://buka-rahasia.blogspot.com/robots.txt. Secara default seperti ini baris-baris perintahnya:
User-agent: Mediapartners-GoogleDisallow:
User-agent: *Disallow: /searchAllow:
Sitemap: http://buka-rahasia.blogspot.com/feeds/posts/default?orderby=updated
Kelompok baris pertama adalah user agent milik adsense; digunakan sebagai perintah untuk mengijinkan robot crawler adsense untuk mengindeks website/blog. Fungsinya untuk mengetahui isi web/blog, agar iklan yang ditampilkan lebih relevan, dan ini tidak sama/berkaitan dengan crawler Google search engine. Bagi yang menggunakan adsense di Blogger, tentun ini menguntungkan dan jangan dihapus. Terus bagi yang menggunakan adsense di WordPress (self hosted, bukan yg gratisan wordpress.com, itu mah ga boleh pasang iklan, hehe), Joomla, Drupal, dll, tambahkan perintah ini untuk mempermudah crawler adsense.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Case study yang saya lakukan khusus pada label. Label menjadi "halaman terlarang" untuk diindeks karena bukan merupakan halaman riil dan dapat menyebabkan duplikasi, efeknya tentu tidak baik bagi SEO. Kasus ini juga terjadi pada halaman arsip (archive).
Method
1. Menggunakan rel=nofollow pada label.
Saya menghilangkan pelarangan terhadap indeks label ( /search), dan kembali menggunakan rel=nofollow pada label, seperti yang pernah saya sampaikan dulu.
2. Menghilangkan rel=nofollow pada label, dan kembali menggunakan perintah pelarangan indeks label pada robots.txt 9mengembalikan pada setting semula)
Setelah beberapa waktu dan setelah mendapatkan hasil dari metode pertama, saya kembali menggunakan perintah pelarangan indeks label, dan menghilangkan rel=nofollow label.
3. Menggunakan rel=nofollow label sekaligus pelarangan indeks pada robots.txt (Disallow: /search).
Setelah mendapatkan hasil dari cara kedua, saya menggunakan kedua perintah nofollow dan disallow pada robots.txt.
Results
Hasil dari ketiga metode percobaan tersebut cukup berbeda:
1. Dengan menggunakan rel=nofollow saja pada label, error yang muncul pada Webmaster Tools masih saja ada, dari sekitar 90 error pada saat crawling, pengurangannya tidak signifikan, hanya sekitar 10-15 saja dalam waktu satu minggu, itupun tidak menghindarkan adanya halaman label yang masih terindeks.
2. Dengan menggunakan pelarangan pada robots.txt, tanpa rel=nofollow, pengurangan error crawl lumayan berkurang, dari sisa di atas (sekitar 65-80 label), sisanya sekitar 30-40 saja hanya kurang dari satu minggu.
3. Dan yang terakhir, dengan penggunaan keduanya, hasilnya jauh sangat signifikan, hingga ini saya tulis hasilnya= 0! tidak ada lagi yang menjadi masalah pada crawl errors pada Webmaster Tools, dan semuanya hanya dalam waktu singkat.
Kesimpulan
Seperti yang sudah disampaikan dalam forum-forum webmaster dan oleh search engine seperti Google sendiri, menggunakan robots.txt tidak serta merta dapat langsung melarang indeks. Bahkan kadang-kadang, "suka-suka gue lah...," kata Google. Misalnya, sobat melarang satu halaman untuk diindeks, namun halaman tersebut punya backlink banyak (backlink bisa dari halaman web sendiri/internal link, atau web lain/external link), maka dia tetap akan ditampilkan dengan anchor text sesuai dengan backlink yang diindeks Google. Nah dengan penggunaan dua perintah sekaligus, setidaknya kita bisa menghilangkan sisa-sisa backlink yang masih follow di halaman blog sendiri. Dengan demikian, jika sobat mencantumkan link label di halaman tertentu, dan dia follow, maka masih diperhitungkan oleh Google dan masuk pada crawl error. Bahkan meskipun kita sudah menggunakan Disallow pada robot txt. So, jika ingin label tidak diindeks, untuk memaksimalkan SEO, gunakan juga rel=nofollow pada label. Asumsi ini tentunya juga berlaku pada halaman-halaman lain dimana sobat tidak ingin search engine mengindeksnya (arsip misalnya).
Cara Mengedit dan Mengisi Custom Robots.txt
a. Seperti yang sampaikan di atas, akses robots.txt editor melalui dashboard > settings > search preferences > crawlers and indexing > custom robots.txt, klik edit.
b. Kemudian klik yes, isikan perintah robots.txt sesuai dengan yang sobat inginkan, dan save.
Penting: Jika memang sobat tidak punya kebutuhan untuk melarang indeks pada halaman tertentu, jangan melakukan apapun. Jika ingin mengembalikan seperti semula (default robots.txt dari Blogger), kembalikan dengan memilih "no" dan save.
Sebenarnya pelarangan indeks sangat penting, kita dapat mengontrol halaman-halaman seperti label (ini sudah diset secara default), dan arsip, yang jelas menyebabkan duplikasi konten. Jika sobat tidak nyaman dengan menggunakan robots.txt untuk menghentikan indeks arsip, saya sarankan menggunakan meta indeks/content untuk menghindari duplikasi karena arsip, caranya jauh lebih mudah.
Saya melihat penggunaan robots.txt yang digabung dengan beberapa cara lain, contohnya penggunaan rel=nofollow, cukup memberikan hasil pencarian berkualitas dan traffic yang jauh lebih tinggi. Dan saya harap juga demikian pada blog sobat.
Salam hangat.
Case Study Custom Robots.txt dan Penggunaannya pada Blogger (2/2)
Written by: Ahmad Khoirul Azmi
Thanks for reading! Suka dengan artikel ini? Please link back artikel ini dengan codedi bawah atau share dengan sharing buttons di atas. Copy paste wajib dengan ijin saya, serta menggunakan link sumber seperti di bawah. Gunakan etika. Saya akan berlakukan DMCA COMPLAINT secara langsung tanpa pemberitahuan atas copas tanpa mengikuti ketentuan yg berlaku.
Written by: Ahmad Khoirul Azmi
Thanks for reading! Suka dengan artikel ini? Please link back artikel ini dengan codedi bawah atau share dengan sharing buttons di atas. Copy paste wajib dengan ijin saya, serta menggunakan link sumber seperti di bawah. Gunakan etika. Saya akan berlakukan DMCA COMPLAINT secara langsung tanpa pemberitahuan atas copas tanpa mengikuti ketentuan yg berlaku.
69 Comment(s):
Oke dehhh siap dijajal mas. makasih infonya :)
saya baru tau soal robot.txt ini. lbih baik disallow atau allow mnurut mas?
ka, kira2 kenapa ya2 makin lama, ngeblog makin males
Scriptnya gimana itu mas ??
disaya muncul tulisan
The robots.txt content does not comply with the format rules.
gan boleh minta script nya tag permaling agan ,gak?please
mantap gan infonya..
@Jasonda: yang anda tuliskan bagaimana, saya butuh liat.
Bagus tuh gan :D
Ane bantu nyebar dengan Link back gan :D
http://rendymarfitra.blogspot.com/2012/05/pengenalan-custom-robotstxt-blogger-dan.html
Makasih Mas Bro, mau saya coba dulu.
akhir akhir ini pengunjung blog q makin berkurang, coba pake cara ini barangkali ada peningkatan.
Makasih gan untuk infonya, siapsaya pakai trik ini.
terima kasih semoga sukses
Saya kurang paham yg beginian, alami saja ah...xixixi
@Koben: abis dari Pakistan ketemu disini, kwkwkwk.... ga masalah Om, yang penting terus share javascript and jquery nya, hehe
Wah, saya belum begitu mengerti , tingkatanya tinggi nih
di mana saya masih SMP , semoga besok kalau sudah dewasa akan mengerti ini semua :D
seingat saya robot text kalo seperti itu ditulisnya g usah di tulis juga g apa2 karena di dlm webmastertoolnya sdh otomatis ada...bener g gan
yang ada di webmaster tools itu adalah hasil dari apa yang dibaca oleh crawler dari robots.txt blog, jadi bukan crawler yang buat.
menarik sekali....ada tambahan ilmu soal seo n ini baru menurut gue....
Mastah... itu kan sitemap settingnya seperti : Sitemap: http://buka-rahasia.blogspot.com/feeds/posts/default?orderby=updated, kalo utk wp self hosting bisa seperti ini ? : Sitemap: http://namadomain.com/feed?orderby=updated ???
kalau mau memakai kedua perintah tersebut,bagaimana bentuk perintah robot txt tersebut,thank___
http://dunia-article.blogspot.com/
@Lalu Irsan: Maksud dua perintah bagaimana? Apakah yang dengan rel nofollow"? rel=nofollow" dimasukkan pada tag link. Lihat cara membuat label nofollow http://buka-rahasia.blogspot.com/2011/06/cara-membuat-label-blogger-nofollow.html, kalo setting robots.txtnya biarkan begitu saja/default.
mantap banget gan
kunjungan pertama, thx
makasih sob sangat bermanfaat
sangat bermanfaat trimakasih atas infonya
Di set ama gak di set gimana pengaruhnya ke SEO?
blog saya tanpa adsense jadi nya gak harus di disallowin kan? oh iya, thanks udah mosting robot nya, saya cari sumber informasi top disini :)
nice info gan...
^_^
sangat bermanfaat sekali info-nya, terima kasih bro sharing2nya
Sip gan infonya, like this dah :)
ane masih bingung.. oke gan langsung ke TKP
- klo punya azmi kan Sitemap: http://buka-rahasia.blogspot.com/sitemap.xml,nah klo pengen jadi kaya gitu gimana ya ?,yg belakang'a .xml
- mas minta link artikel dong yang cara optimasi arsip buat blog :D,,,yang klo postingan ke index itu,link postingan'a gk ada tahun sama bulan'a ;D
Terimaksih mas :D
sitemap xml adalah fitur baru blogger, simak disini:
http://buka-rahasia.blogspot.com/2012/07/format-sitemap-xml-hadir-di-blogger.html
snippet tanggal dan bulan yang tampil di search engine adalah bawaan blogger dan tidak bisa diubah, kalopun tampilan posting bisa dihilangkan tanggal bulan tahunnya, tapi snippet itu tetap muncul karena beda sumber.
saya lihat di webmaster sudah ada robot txt dan sama persis seperti kode diatas, apa kita mesti tambahkan juga kode tersebut di dasboard template (crawlers and indexing)?
Trik yg jitu bung
thanks...
@adibey: Robots.txt di Webmaster tools itu adalah hasil dari robots.txt yg dibaca dari blog, jadi WMT bukan untuk MENYETTING robots.txt web/blog, dia cuma sebagai alat test saja, seperti apa robots txt yang terbaca. Kalo mau setting robots.txt, ya semua dilakukan di blog.
wah perlu banget nih
coba dulu ah...
makasih mas....saya baru tau mas, maklum newbie..hehe
mas... saya nitip blog saya ya mas..maklum sepi mas..gk terindeks di google hik hik...gk ada follower..hik hik... kasian saya ya mas... tapi gak apa apa mas, kereta api tetep jalan meski gak ada penumpang... blog saya tetep update meski gk ada pengikut.. niat saya kan pengen nyebarin ilmu..gimana mas?? Majalah Internet Indonesia
ketemu juga yang beginian , kok simple ya gan ?
loh mas, kenapa ya mesti di disallow, bukanya menguntungkan kalau semua halaman web kita terindex?
maaf masih newbie, lg bingung nih mas :(
sip... tutorial SEO di blog ini memang ok..
Sangat berguna sekali mas artikelnya :) sekarang saya tahu bagaimana cara mengedit robot.txt di blogger
@han: sebagai salah satu contoh, halaman label blogger bukanlah halaman sesungguhnya, dia hanyalah halaman search. kalo diindeks bisa menyebabkan duplikasi konten dari 2 halaman berbeda, oleh karena itu di-disallow.
@all: Thanks :)
mantap lah,, nanti nyobaa
krn newbie.....masih blm paham neh agan-agan....
inoxind.blogspot.com
kawan saya bikin blog bisnis, sampe sekarang selalu diurutan pertama di google, minimum dihalaman pertama. saya hanya urutan ke 5. dengan 1 keywoord produk
sarannya dunk agan-agan.
sulaimanfayed2@yahoo.com
mas khirul saya lagi binun nih label saya keindex padahal sebelumnya nggak, udah saya remove dari webmaster tapi muncul terus apa harus saya hapus breadcrumbsnya? soalnya saya tidak menemukan tag "a expr:href='data:label.url'" selain dari breadcrumbs yang mempunyai rel "tag", mohon pencerahannya ni blog saya ananda.hobbiousdotcom
Dari artikel ini, saya lumayan dapat pencerahan. Salah ngoprek robot.txt bisa riskan sekali ya.
Terima kasih tambahan ilmunya.
cara di-disallow label gimana om ?
wah mantab.. tapi saya masih agak bingung sedikit. Masih baca baca dulu . Trmkash artikelnya. sangat lengkap.
by Kayyis
makasi ilmunya yaaa :)
http://bisnisbundacerdas.blogspot.com/
keren bat..
thanks ilmunya bermanfaat
thanks mas infonya bermanfaat sekali
ilmu baru lagi nih, untuk optimasi SEO lebih friendly pada serp...thanks kang :)
Sippppp gan...
lanjutkan
saya bingung klo belajar robot txt itu gan..padahal pingen belajar bnyak tp gak faham faham huhuuhu
cukup membantu saya mas, makasi
ok mas thanks atas pembahasan tentang robots.txt ada hal yang mau saya tanyakan, maklum masih newbie nih. saya mendapatkan pesan begini 'Googlebot can't access your site' padahal saya tidak menyeting apapun untuk robots.txt. mohon solusinya dan mengapa hal ini terjadi pada salah satu blog saya. thanks
untuk lebih jelasnya pesan pesan pada webmaster seperti ini "Google couldn't crawl your site because we were unable to access the robots.txt file.robots.txt." minta tolong banget buka rahasianya. terimakasih
gan, saya bingung neeh, masih pemula bgt, settingannya gimana ya?
saya buka namablog/robot.txt tapi ga ada settingan robotnya gan..
gimana tuh?
klo boleh kirimin settingan yang baner donk gan ke email saya
kedai.gadget001@gmail.com
thx bgt...
Thank Gan artikelnya sangat bermanfaat!
mas saya mau tanya tentang bagaimana struktur dari pada robots.txt itu sendiri, seperti struktur diatas adalah
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow:
Sitemap: http://buka-rahasia.blogspot.com/feeds/posts/default?orderby=updated
klo struktur di blog saya adalah :
User-agent: *
Disallow: /search
Allow: /
Sitemap: namablog.com/atom.xml?redirect=false&start-index=1&max-results=500
kira" gimana mas ada yg salah gk ?
Terimakasih :D
Halo. Yup, sudah bener banget tuh mas :) Sitemap juga bener. Berarti anda memaksimalkan jumlah url yang akan disimpan oleh crawler. Kalo punya saya di atas kan cuma order by updated, artinya cuma maksimal kira-kira 10 15 terbaru.
Saya menggunakan user agent mediapartner karena dulu pake adsense. Jadi kalo ga pake adsene ga pake itu ga masalah, dan memang tidak perlu :)
Tutorialnya sangat lengkap Om.
Izin baca2 yang lainnya juga.
wah.. tipsnya sangat bermanfaat sekali , penjelasannya simpel dan jelas , mudah dimengerti..makasih mas infonya...salam blogger !!
Halo, bolo-bolo:
1. Ini a;asannya:
Allow: /
sama dengan perintah
Disallow:
Oleh karena itu harus dipilih salah satu saja.
Ya, saran saya gunakan yang kedua, karena lebih valid. Tapi bukan berarti yang pertama tidak berfungsi, sama saja fungsinya, tapi jangan gunakan berbarengan.
2. Saya butuh tau isi robots.txt anda
3. Ini juga sama, karena saya butuh tahu kondisi robots.txt dan juga kondisi indeks sekarang.
Saya tunggu replynya :)
siap master....ini isi robot.txt saya:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Sitemap: http://dangdutlengkap.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
di atas kolom robot.txt webmaster itu ada keterangan intinya seperti ini :peta situs terdeteksi valid..
sitemap itu seperti dulu yang master azmi sarankan..soalnya yang default sudah saya hapus...sitemap itu juga yang saya gunakan di feedburner...
kembali ditunggu balasannya...
untuk mengatasi duplikasi konten karena komentar blog bagaimana pak, biasanya kan didahului dengan embel-embel showComments
simak ini:
Hindari Duplikasi Konten Karena Komentar Blog
aduuuh sy perlu banget hal robot.txt buat blogspottapi sy susah memahami nya jd blm jlsa smpi skr , klo bloeh simpel sy nanya robot txt kan msih non atif cara memasang nya sperti apa lngkap dngn kode2 nya ,,, trmksih
Post a Comment