Site sahibi olmak isteyen kişiler en başında veya bir süre sonra robots.txt dosyasıyla tanışırlar. Bu dosya arama motoru tarayıcılarına alan adının hangi noktalarının taranması gerektiğini bildirmektedir.
Bir robots.txt dosyasının oluşturulması ve yerleştirilmesi sihirli bir iş değildir. Stratejik bir biçimde oluşturulmuş site yapılandırılmasında bu oldukça kolaydır. Bu yazıda robots.txt dosyasının nasıl oluşturulacağı ve nelere dikkat edilmesi gerektiğine değinilmiştir.
robots.txt dosyası ufak metinlerden oluşan ve sitenin kök dizinine yerleştirilen bir dosyadır. Birçok arama motoru tarayıcısı bu dosyayı standart protokol olarak görmektedirler. Bu nedenle arama motorları bir siteyi dizine eklemeden önce burada yer alan komutları gözden geçirmektedirler. Bu sayede site yönetici bir robots.txt dosyası oluşturarak sitenin hangi alanlarının taranacağını çok daha iyi bir biçimde kontrol edebilmektedirler.
robots.txt dosyasının içerisinde Google’a ait tarayıcılara çeşitli talimatlar verebilirsiniz. Google’a ait tarayıcılar veya “kullanıcı aracıları” genellikle Googlobot, Googlebot image, Google Adshot gibi araçlardır. Yahoo Slurp, Bing ise Bingbot kullanmaktadır.
robots.txt Dosyasının Oluşturulması
robots.txt dosyasının içerisinde yer alan ibareler iki bölümden oluşur. Aşağıda yer alan örnekleri gözden geçirerek iki satırın birbirini takip ettiğini görebilirsiniz. Ancak burada çeşitli satırlar oluşturulabilmektedir. Talimat verilmek istenen kullanıcı aracına göre çeşitliğin artış göstermesi söz konusu olacaktır.
Aşağıdaki komut doğrultusunda Googlebot’a “/cms/” dizininin tarama dışı tutulması gerektiğini bildirebilirsiniz.
User-agent: Googlebot
Disallow: /cms/
Eğer bu talimatın tüm tarayıcılar için geçerli olmasını istiyorsanız aşağıdaki talimatları yazmalısınız.
User-agent: *
Disallow: /cms/
Sitenizin sadece tek bir alanının değil tüm alanlarının dizin dışı kalmasını istiyorsanız aşağıdakileri yazmanız yeterli olacaktır.
User-agent: *
Disallow: /
Sadece tek bir görselin veya alt sayfanın taranmasını engellemek istiyorsanız aşağıdaki şekilde bir talimat girebilirsiniz.
User-agent: Googlebot
Disallow: /examplefile.html
Disallow: /images/exampleimage.jpg
Sitenizde yer alan tüm görsellerin gizli kalmasını istiyorsanız bu durumda dolar işaretini bir yer tutucu olarak kullanıp bir filtre oluşturabilirsiniz. Tarayıcılar bu durumda belirlemiş olduğunuz dosya türlerini taramadan diğer dosyalara geçeceklerdir.
User-agent: *
Disallow: /*.jpg$
Belirli bir dizinin engellenmesini ama bu dizine ait alt dizinin taranmasını istiyorsanız bunu yine talimatlar aracılığıyla arama motorlarına bildirebilirsiniz.
User-agent: *
Disallow: /shop/
Allow: /shop/magazine/
AdWords’e ait tüm görüntülerin organik dizinden çıkarılmasını istiyorsanız aşağıdaki talimatı yazabilirsiniz.
User-agent: Mediapartners-Google
Allow: /
User-agent: *
Disallow: /
robots.txt dosyası içerisinde aynı zamanda site haritasına yer vererek bir site ile tarayıcılar arasındaki bağlantıyı sağlamlaştırmayı başarabilirsiniz.
UserAgent: *
Disallow:
Sitemap: http://[example.com]/sitemap.xml
robots.txt Dosyasını Joker Olarak Kullanmak
Robotlara yönelik olarak bu standart politika aracılığıyla komutlarınızı istediğiniz gibi aktarmayı başarabilirsiniz. Bu komutları aktarırken * ve $ en çok işinize yarayacak semboller olacaktır.
Bu sembolleri Disallow direktifi ile birlikte kullanarak bir sitenin tamamını, belirli bir kısmını veya bir dosyayı hariç tutmayı başarabilirsiniz.
* sembolü nerede kullanılırlarsa kullanılsın arama motorlarına ait tarayıcıları tarama işlemi sırasında bu dosyaları es geçerler. Kullanıcı aracına göre değişiklik gösterecek olsa bile tüm tarayıcılar için söz konusu karakter sembolünün anlamı bellidir.
Bu tür karakter sembolleriyle uğraşabilecek teknik bilgiye sahip değilseniz bu durumda OnPage.org adresinde yer alan robots.txt oluşturma aracını kullanabilirsiniz.
Bir robots.txt dosyasının doğru bir biçimde işleyiş göstermesini sağlamak için çeşitli gerekliliklerin yerine getirilmesi gerekmektedir. Dosyanızı çevrimiçi ortama koymadan önce temel kuralları gözden geçirmelisiniz:
- txt dosyası en üst dizinde yer almalıdır. Örneğin, http://example.com adresi için robots.txt dosyası http://example.com/robots.txt kısmında olmalıdır.
- Tüm dosyaları kapsayacak şekilde gerçekleştirilecek olan tarama engellemeleri için $ işareti kullanılmalıdır.
- Varsayılan olarak söz konusu dosya “izin ver” talimatını işler. Belirli bir alanları engellemek istiyorsanız bu durumda “izin verme” anlamına gelen “disallow” komutunu kullanmalısınız.
- Bu dosya içerisindeki talimatların hepsi karakter hassasiyetine sahiptir. Bu nedenle talimat yazarken büyük ve küçük harflere dikkat etmelisiniz.
- Çoklu kurallar arasında mutlaka bir boşluk bırakılmalıdır.
robots.txt Dosyasının Test Edilmesi
OnPage.org adresinde yer alan pratik test aracıyla bir sitede robots.txt dosyasının yer alıp almadığını anında öğrenebilirsiniz. Alternatif olarak Google Search Console mülkünüze giderek bu dosyanın varlığını kontrol edebilirsiniz.
Sitenize ait dizin yapısını bir başkası oluşturmuşsa ve robots.txt dosyasına sahip olup olmadığını bilmiyorsanız URL’yi Google Search Console’a yazarak bunu kontrol edebilirsiniz. “robots.txt dosyası bulunamadı” hatasını alıyorsanız ilk olarak bu dosyayı oluşturmanız gerekmektedir.
1. robots.txt Dosyasını Google’a Gönderin
Google Search Console’da robots.txt editörünün sağ alt kısmında yer alan “gönder” butonuna bastığınız zaman karşınıza bir diyalog penceresi çıkacaktır. Düzenlenmiş robots.txt kodunu indirmek istiyorsanız bu diyalog penceresinde yer alan “İndir” butonuna basmanız yeterli olacaktır.
Sitenizin kök dizininde yer alan robots.txt dosyasının taranıp taranmadığını öğrenmek istiyorsanız “güncel versiyonu görüntüle” şeklinde bir ibare yer alan butona tıklamanız gerekmektedir. Bu sayede Google’a gerekli düzenlemelerin yapıldığını basit bir biçimde bildirebilirsiniz.
2. robots.txt Hatalarını Düzeltin
Sitenizde bir robots.txt dosyası yer alıyorsa test aracını çalıştırdıktan sonra burada hata yer alıp almadığını inceleyebilirsiniz. Search Console’da yer alan test aracını kullanmak istiyorsanız robots.txt dosyasının yer aldığı URL adresini girmeniz yeterli olacaktır.
Google kullanıcı araçlarına yönelik talimatların neler olduğunu öğrenmek istiyorsanız burada yer alan “onaylandı” ve “engellendi” ibarelerine göz atabilirsiniz. Onaylandı ibaresi varsa söz konusu kullanıcı araçları sitenizde bulunan alanları dizine ekleyecek demektir. Engellendi ibaresi varsa söz konusu kullanıcı araçları sitenizde belirlemiş olduğunuz alanları dizine eklemeyecek demektir.
robots.txt dosyanızda çeşitli hatalar varsa bu durumda dosyanızı gözden geçirip hataları düzeltmelisiniz. Hataları düzelttikten sonra test aracını tekrar çalıştırarak hatanın veya hataların giderilip giderilmediğini öğrenmelisiniz.
1 Yorumlar
güzel içerik, teşekkürler.
YanıtlaSil