Arama motoru botları bir web sitesini ziyaret ettiğinde, tarama ve dizine eklemeyi kontrol etmek için robots.txt dosyasından faydalanılır. Bir diğer ismi robot engelleme standardı olarak bilinen robotst.txt dosyası, arama motoru tarayıcılarının bir web sunucusunda yer alan hangi dosyalara erişmesini ya da hangi dosyalara erişmemesini belirlemektedir. Sadece dosya değil, klasör ve URL’ler ile ilgili yönergeler de oluşturulabilir.
Robots.txt dosyası ve kullanımı hakkında bazen birçok yanlış bilgi duyabilirsiniz. Bu dosya, siteyi taramak ve keşfetmek için ziyaret eden botlara web sitesinde yer alan hangi URL’leri tarayacağını söyleyecektir. Arama motoru botlarının oluşturabileceği istek yoğunluğunu azaltmak ve tarama bütçesi optimizasyonu yapmak için kullanılır.
Bir web sitesinin Google arama motoru sonuç sayfalarından gösterilmesine engel olmak için kullanılabilecek bir yöntem değildir. Bir web sayfasının SERP’te görünürlüğünü engellemek için meta robots etiketi “noindex” kullanmak ya da sayfaya şifre ile erişim koymak içeriğin gösterilmesini engelleyecektir.
Robots.txt Nedir?
Web sitesinde yer alan sayfaları taramak ve keşfetmek için gelen arama motoru botlarına, 200 ‘OK’ HTTP durum koduna sahip sayfalardan hangilerini taramasını ya da hangilerinin taramaması gerektiği hakkında direktiflerin bulunduğu basit metin (txt) dosyasıdır.
Bu basit metin dosyası içerisinde yer alan direktiflere arama motoru botları genellikle uymaktadır. Web sitesini ziyaret eden arama motoru botları, taramasına izin verilmeyen sayfaları taramayacaktır. Bazı durumlarda web sitesi içerisinde bu taranmasını istemediğimiz sayfalara, diğer sayfalardan dahili veya sitelerden harici bağlantılar verilmişse, Google bu direktifi göz ardı edip ilgili sayfayı tarayacaktır.
Robots.txt dosyası içerisinde arama motoru botlarına genellikle direktif olarak, izin verildi ya da izin verilmedi komutu kullanılır.
SEO İpucu: Arama motoru botları bir web sitesini ziyaret ettiğinde, robots.txt dosyasını okumak istediğinde eğer ki HTTP 500 Internal Server veya diğer sunucu kaynaklı HTTP durum kodları ile karşılaşırsa, sitede bir hata olduğunu düşünerek taramayı durduracaktır. Bu durum sadece web sitesi için değil, örneğin resimleriniz için bir CDN kullandığınızı düşünürsek, Google ilgili sayfada resim olmadığını düşünecektir.
SEO İçin Robots.txt Dosyası Neden Önemlidir?
Web sitesini taramak ve keşfetmek için gelen arama motoru tarayıcıları, web sitesi içeriğini görüntülemeden önce ilk baktığı ve kontrol ettiği şey robots.txt dosyasıdır. Daha sonrasında site haritasında yer alan URL’leri taramaya başlayacak olan botlar, robots.txt dosyasında yer alan direktifler uygulanacaktır. Bu sebepten dolayı dosya içerisinde yer alan her bir direktifin doğru olduğunu kesinlikle kontrol etmeliyiz.
Robots.txt dosyasında yanlış kullanılan bir direktif, geçici bir fatal hata olarak değerlendirebilir. Yanlışlıkla web sitesini ya da bir kısmını taramaya kapatılmış olması geri dönülemez bir hata olarak değerlendirilmemelidir. Hatanın en kısa sürede fark edilip düzeltilmesi, kötü sonuçlar oluşmasını engelleyecektir.
Örneğin, robots.txt dosyasında web sitesinin herhangi bir kategori sayfasını arama motoru botlarının taramasını engelleyecek bir komut olduğunu düşünelim. Bu hatanın fark edilmemesi kötü sonuçları beraberinde getirebilir. Bu komut yanlışlıkla eklendiğinde, ilgili sayfanın çok fazla bağlantısı yoksa bot muhtemelen taramayacak, fakat bir gün sonrasında yanlış komut kaldırıldığında ya da düzeltiğinde arama motoru botları ilgili sayfayı taramaya başlayacaktır.
SEO İpucu: Googlebot web sitesini ziyaret ettiğinde, robots.txt dosyasını önbelleğe kaydetmektedir. Bu önbelleği 24 saatte bir yenilemektedir. Eğer ki robots.txt dosyasında bir düzenleme yaptıysanız, yapılan düzenlemeler 24 saat sonra geçerli olacaktır.
Farklı bir örnek ise, özellikle e-ticaret web sitelerinde tarama bütçesi optimizasyonu için robots.txt dosyasından faydalanılmalıdır. Arama motoru botlarının bir web sitesini taramak için harcayacağı süre oldukça kısıtlıdır. Bu durumda siteyi ziyaret eden botların, önemli sayfaları daha kolay ve hızlı taraması için web sitesindeki dinamik olan veya önemsiz sayfalar taramaya kapatılabilir.
Robots.txt Dosyası Nerede Bulunur?
Arama botlarının bir web sitesinin robots.txt dosyasını kolayca bulması için her zaman sunucularda web sitesi dosyalarının bulunduğu ana kök dizin altına şifresiz olarak eklenir. Düz metin dosyası olarak oluşturulan bu dosya tüm herkes tarafında okunabilecek ve görüntülenebilecek şekilde yetkilendirme yapılmaldır.
Bir web sitesinin robots.txt dosyasına ulaşmak ve görüntülemek için örneğin, web tarayıcısında adres çubuğuna analyticahouse.com/robots.txt yazılması yeterli olacaktır. Tüm tarama botları tarafından evrensel olarak ulaşılabilecek URL yapısı bu olduğundan asla, robots.txt dosyasının yeri değiştirilmemelidir.
Web Sitesi İçin Robots.txt Dosyası Oluşturma
Bir web sitesi için robots.txt dosyası oluşturmak için farklı yöntemler bulunmaktadır. Tercih edilen yöntemlerden biri uygulandığında, oluşturulan robots.txt dosyası, yukarıda bahsettiğimiz gibi kök dizin altına yerleştirilmelidir.
Manuel olarak dosyayı oluşturmak istediğinizde, bilgisayarınızda yüklü olan herhangi bir metin düzenleyicisinden rahatlıkla faydalanabilirsiniz. Yapmanız gereken komutların editöre yazılması ve kaydederken dosya ismine, “robots” verilmeli, uzantısı ise “txt” olmalıdır.
Otomatik olarak oluşturulması için, online bir robots.txt oluşturuculardan faydalanabilir. Oluşturulan dosyayı kök dizin altına yüklemeden önce mutlaka kontrol etmelisiniz.
Manuel Olarak Robots.txt Dosyası Oluşturma
Manuel olarak robots.txt dosyası oluşturma için yukarıda bahsettiğimiz üzere bir editörden faydalanacağız. Sublime Text, notepad, notepad++ vb. uygulamalarında boş bir dosya açtıktan sonra, dosya içerisine şu komut yazılabilir:
- İlk satırda kullanılan “User-agent:*” komutu, bir sonraki satırlarda yer alan tüm yönergelerin, (ikinci bir “User-agent:” komutu yoksa) siteyi taramaya gelen tüm botlar için geçerli olduğundan bahsetmektedir.
- İkinci satırda yer alan “Allow:/” komutu, arama motoru botların sitenin tamamına erişebileceğinden bahsetmektedir.
- Üçüncü satırda yer alan “Sitemap:” komutu, arama motoru botlarına web sitesinin site haritası dosyasının yerini ve URL adresini belirtilerek, rahatça ulaşmasını sağlamaktadır.
Robots.txt Dosyasında Kullanılması Tavsiye Edilen Komutlar
Arama motoru botlarının bir siteyi taramaya başlamadan önce ilk olarak kontrol ettiği robots.txt dosyaları, SEO performansınız açısından oldukça önemlidir. Daha önceden de bahsettiğimiz gibi yanlış kullanımı, web sitenizin ya da önemli sayfalarınızın SERP’te (Search Engine Results Page) görünmesini engelleyebilir.
Tavsiye edilen robots.txt komutları:
Bu çok sık kullanılan robots.txt komutlarını ne işe yaradığını öğrenelim.
- User-agent,
- Allow,
- Disallow,
- Sitemap,
User-Agent Komutu Nedir?
Robots.txt dosyasında yer alan “User-Agent” komutu web sitesini ziyaret edecek olan botlardan hangileri için hangi komut geçerli olduğunu belirlemeye yarar. Web sitesini ziyaret edenlerin içeriği görüntülemek için istekte bulunduğu sırada “HTTP Header” başlığı içinde isteği yapan kişi hakkında bilgi aktarır.
HTTP istek başlığında yer alan user-agent bilgisi ayrıca log dosyası analizi yapmak istediğinizde size kullanıcı ile botları rahatlıkla ayırma imkanı sunmaktadır.
İnternet ortamında yüzlerce arama motoru botları yer almaktadır. Arama motoru botları listesi:
- Googlebot
- Ahrefsbot
- AppleBot
- Screaming Frog SEO Spider
- DuckDuckBot
- YandexBot
- Yahoo! Slurp
- Yeti
- Baiduspider
- Bingbot
- CatchBot
- GalaxyBot
- MJ12bot
- msnbot
- SBIder
- SandCrawler
- Scrubby
- SearchSight
- Seekbot
- sogou spider
Google tarama botlarının listesi:
- Googlebot
- APIs-Google
- AdsBot-Google-Mobile
- AdsBot-Google
- Mediapartners-Google
- AdsBot-Google-Mobile-Apps
- FeedFetcher-Google
- Google-Read-Aloud
- DuplexWeb-Google
- googleweblight
- Storebot-Google
User-agent direktifleri yazılırken, kullanım sırası oldukça önemlidir.
User-agent ile ilgili bazı senaryolu örnekleri incelersek:
Robot.txt User-Agent Örneği-1:
Web sitesini taramaya gelen Googlebot’un iş başvurusu sayfası altında yer alan teşekkürler adlı sayfamızı taramasını istemezken, diğer kalan tüm botların taramasını istiyoruz.
User-agent: * Allow: / User-agent: Googlebot Disallow: /is-basvurusu/tesekkurler
Yukarıda yer alan komut ile Googlebot, Teşekkürler sayfası hariç diğer tüm sayfaları tarayacaktır. İş başvurusu ve onun altındaki diğer tüm sayfaları tarayacaktır.
Googlebot’un iş başvurusu sayfası altında yer alan tüm sayfaları taranmasını engellemek ve Yandexbot’un iste sadece teşekkürler sayfasını taramasını engellemek istiyorsak.
User-agent: * Allow: / User-agent: Googlebot Disallow: /is-basvurusu/ User-agent: Yandexbot Disallow: /is-basvurusu/tesekkurler
Allow ve Disallow Komutu Nedir?
Robots.txt dosyasında yer alan “Allow:” komutu arama motoru botlarına hangi sayfaları taramasına izin verildiği hakkında bilgi aktarır. Disallow komutu kullanılmamışsa, arama motoru botları tüm sayfalara tarama izni verildiği şeklinde yorumlamaktadır.
Disallow komutu ise, arama motoru botlarına belirtilen URL veya sayfayı taramaması gerektiğini söylemektedir. Bu sayede arama motoru botları için tarama bütçesi optimizasyonu sağlanmış olacaktır.
3 farklı senaryo ile disallow ve allow komutlarının ne işe yaradığını öğrenelim:
Senaryo - 1: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istiyoruz?
user-agent: * Allow:/
Senaryo - 2: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istemiyoruz yani engellemek istiyoruz?
user-agent: * Disallow:/
Senaryo - 3: Tarama botlarının web sitesinde ki X sayfasını taramamasını fakat X sayfası altında yer alan Y sayfasını taramasını istiyoruz?
user-agent: * Disallow:/x-sayfasi/ Allow: /x-sayfasi/y-sayfasi
Robots.txt Dosyasını Google Robots.txt Test Aracı ile Test Etme
Oluşturmuş olduğunuz robots.txt komutlarında, Googlebot için yanlış bir engelleme ya da hatalı bir kullanım olup olmadığından emin değilseniz, bu noktada size bir yardımcı araç bulunuyor. Google’un kendi geliştirdiği robots.txt test aracı ile Googlebot’un sitenizde yer alan URL’lere tarama konusunda izin verilip verilmediğini görebilirsiniz.
Bu aracın eksik bir yanı, URL’leri toplu olarak kontrol edemiyor olmanızdır. Bu aracı kullanmak istediğinizde, Google Search Console hesabınızın olması ve kayıtlı olduğunuz e-posta adresi ile erişim sağlamanız gerekmektedir. GSC hesabınızın mail adresi ile erişim yapınız.
Resimde görüldüğü üzere ilgili alanlara, user-agent, allow ve disallow komutlarını uygulayabilirsiniz. Daha sonrasında kontrol etmek istediğiniz URL’i yazarak “Test Et” butonuna tıklayınca size izin verildiğini ya da izin verilmediğini söylemektedir.
Örneğin, tr path’i altında yer alan SEO sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında / (slash) olmadan “tr/seo” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verildiği göstermekte ve sağ alt köşede “izin verildi” yazmaktadır.
Örneğin, tr path’i altında yer alan çerez politikası sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında yine / (slash) olmadan “tr/cerez-politikasi” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verilmediğini göstermekte ve sağ alt köşede “engellendi” yazmaktadır.
Google Search Console Robots.txt Hata ve Uyarıları
Web sitesinin Googlebot tarafından tarandığı zaman botun karşılaştığı hata ve durumlar hakkında bilgi aldığımız en faydalı yer Google Search Console hesabınızdır.
GSC hesabına giriş yaptıktan sonra sol tarafta yer alan Index > Coverage (Dizin > Kapsam) tıklamanız gerekiyor. Daha sonrasında sağ tarafta yer alan grafiklerin altında site robots.txt ile ilgili hata ve uyarılardan bahsetmektedir.
Blocked by robots.txt: Taranmak istenen URL’lerin robots.txt tarafından engellendiğini belirtmektedir. Bunun için ek bir aksiyon almanıza gerek yoktur. Sadece kontrol etmeniz gereken, tarama esnasında site haritasında yer alan URL’in robots.txt tarafından engellenip engellenmediğini kontrol etmelisiniz. Sizin için önemli olan sayfaların durumunu kontrol etmelisiniz.
Indexed, though blocked by robots.txt: Bazı URL’lerin robots.txt tarafından engellemiş olmasına rağmen, dizine eklendiği bilgisini vermektedir. Dizine eklenen URL’leri kontrol etmeli ve indexlenmesini engelleyecek şekilde aksiyon alabilirsiniz. Örneğin bağlantı ise, nofollow etiketi eklemek, sayfa ise noindex etiketi eklemek gibi çözümler kullanabilirsiniz.
Robots.txt ile ilgili Dikkat Edilmesi ve Unutulmaması Gerekenler
Web sitesini taramak isteyen botları yönlendirmek için kullandığımız robots.txt dosyası ile ilgili dikkat edilmesi ve unutulmaması gerekenler:
- Botlar bir siteyi taramak için geldiğinde ilk önce robots.txt dosyasını kontrol eder ve indirir.
- Botların sitenin herhangi bir bölümüne erişmesini istemiyorsanız “disallow:” komutu kullanmalısınız.
- Botlara yardımcı olmak için, robots.txt dosyasında site haritasının URL’ini “sitemap:” komutu ile belirtmelisiniz.
- Robots.txt dosyası mutlaka kök dizin altında yer almalıdır. siteadi[.]com/robots.txt gibi olmalıdır.
- Googlebot robots.txt dosyasını istediğinde eğer ki 429 HTTP durum kodu haricinde, herhangi bir 4XX HTTP durum kodu ile karşılaşırsa sitenin robots.txt dosyası yok gibi davranır. Bu durumda sitenin tüm sayfalarına ve URL’lerini tarayabileceğini belirtir.
- 429 veya 5XX HTTP durum kodlarından biri ile karşılaştığında örneğin 500 HTTP durum kodu ile karşılaşırsa sitenin taramaya kapalı olduğu şeklinde yorumlar ve taramayı durdurur.
- Google web sitelerinin robots.txt dosyasını önbellekte tutar. Son 24 saat içerisinde yaptığınız bir değişikliğin etkili olabilmesi için önbelleğin yenilenmesini beklemek zorundasınız.
- UTF-8 formatında ve txt uzantılı olmak zorundadır.
- Google, robots.txt dosyalarını maksimum 500KiB’lık bir boyutunu taramaktadır. Bu boyut üzerinde yer alanların, bu sınıra kadar olan satırını dikkate alır sonrasını dikkate almayacaktır.
- Robots.txt dosyasında yorum satırı oluşturmak için # kullanmanız gerekmektedir.
- Robots.txt dosyasında yer alan URL path’lerinde mutlaka büyük ve küçük yazımına dikkat ediniz.
Sonuç
Web sitesini taramak için gelen botlara hangi sayfaları taramasını, hangi sayfaları taramaması konusunda direktiflerin bulunduğu robots.txt dosyası, SEO çalışmaları için önemlidir.
Robots.txt konusunda yayınladığımız blog içeriğimizi faydalı bulduysanız, diğer insanlarında erişebilmesi için sosyal medya hesaplarınızda paylaşarak bizlere destek olabilirsiniz.
Arama Motoru Optimizasyonu (SEO) Kategorisindeki Benzer Bloglarımız
N-Gram Analizi İle Kârlı Organik İçerik Üretimi
N-Gram analizinin sağladığı performans gösteren anahtar kelimelerin analizi ile kârlı organik içerik üretimi sağlayabiliriz. AnalyticaHouse ile inceleyelim!
Devamını okuSEO için Kullanabileceğiniz En İyi Wordpress Eklentileri
Wordpress altyapılı sitelerde SEO işlemlerinizi kolaylaştıracak, en güncel ve güzel eklentileri AnalyticaHouse blogta derledik. Hemen okumak için tıklayın!
Devamını okuYerel (Local) SEO: Belirli Bir Lokasyonda SEO Stratejileri
Küçük işletmeler, lokasyon bazlı odağı olanlar ve hizmet satışı yapan firmalar yerel (local) SEO'ya çok ihtiyaç duyarlar. Lokal SEO'nun tüm detayları yazımızda!
Devamını oku