Robots.txt nasıl doğru bir şekilde kurulur?

İçindekiler:

Robots.txt nasıl doğru bir şekilde kurulur?
Robots.txt nasıl doğru bir şekilde kurulur?
Anonim

Html sitesi için doğru Robots txt'si, arama motoru botları için neleri kontrol edebileceklerini söyleyen eylem maketleri oluşturur. Bu dosyaya genellikle Robot Dışlama Protokolü denir. Botların bir web sitesini taramadan önce aradığı ilk şey robots.txt'dir. Site Haritasına belirli alt alanları kontrol etmemesini işaret edebilir veya söyleyebilir. Arama motorlarının en sık bulunanları aramasını istediğinizde robots.txt dosyası gerekli değildir. Dosyanın doğru formatlanmış olması ve kullanıcı sayfasını kullanıcının kişisel verileriyle indekslememesi bu süreçte çok önemlidir.

Robot tarama prensibi

Robot tarama prensibi
Robot tarama prensibi

Bir arama motoru bir dosyayla karşılaştığında ve yasaklanmış bir URL gördüğünde, onu taramaz, ancak dizine ekleyebilir. Bunun nedeni, robotların içeriği görüntülemesine izin verilmese bile, yasak URL'ye işaret eden geri bağlantıları hatırlayabilmeleridir. Bağlantıya erişimin engellenmesi nedeniyle, URL arama motorlarında görünecek, ancak parçalar olmadan. Eğer birgelen pazarlama stratejisi için, bitrix (Bitrix) için doğru Robots txt gereklidir, tarayıcılar tarafından kullanıcının isteği üzerine site doğrulaması sağlarlar.

Öte yandan, dosya düzgün biçimlendirilmezse bu, sitenin arama sonuçlarında görünmemesine ve bulunamamasına neden olabilir. Arama motorları bu dosyayı atlayamaz. Bir programcı, herhangi bir sitenin robots.txt dosyasını kendi etki alanına gidip robots.txt ile takip ederek görüntüleyebilir, örneğin, www.domain.com/robots.txt. Herhangi bir alan adını girebileceğiniz Unamo'nun SEO optimizasyon bölümü gibi bir araç kullanarak, hizmet dosyanın varlığı hakkında bilgi gösterecektir.

Tarama kısıtlamaları:

  1. Kullanıcının güncel olmayan veya hassas içeriği var.
  2. Sitedeki görseller görsel arama sonuçlarına dahil edilmeyecektir.
  3. Site henüz robot tarafından dizine eklenecek demo için hazır değil.

Bir kullanıcının bir arama motorundan almak istediği bilgilerin URL'yi giren herkes tarafından kullanılabileceğini unutmayın. Hassas verileri gizlemek için bu metin dosyasını kullanmayın. Alan adında 404 (bulunamadı) veya 410 (geçildi) hatası varsa, arama motoru robots.txt'nin varlığına rağmen siteyi kontrol eder ve bu durumda dosyanın eksik olduğunu düşünür. 500 (Dahili Sunucu Hatası), 403 (Yasak), zaman aşımına uğradı veya "mevcut değil" gibi diğer hatalar robots.txt talimatlarına uyar, ancak dosya kullanılabilir olana kadar atlama geciktirilebilir.

Arama dosyası oluşturma

Arama dosyası oluşturma
Arama dosyası oluşturma

BirçokWordPress gibi CMS programlarının zaten bir robots.txt dosyası vardır. Robots txt WordPress'i düzgün bir şekilde yapılandırmadan önce, kullanıcının nasıl erişileceğini anlamak için yeteneklerini tanıması gerekir. Programcı dosyayı kendisi oluşturuyorsa, aşağıdaki koşulları karşılaması gerekir:

  1. Küçük harf olmalıdır.
  2. UTF-8 kodlamasını kullanın.
  3. Bir metin düzenleyiciye dosya (.txt) olarak kaydedin.

Bir kullanıcı, onu nereye yerleştireceğini bilmediğinde, bir alanın köküne nasıl erişileceğini öğrenmek için web sunucusu yazılım satıcısıyla iletişime geçer veya Google konsoluna gidip onu indirir. Bu işlevle Google, botun düzgün çalışıp çalışmadığını ve dosya kullanılarak engellenen sitelerin listesini de kontrol edebilir.

bitrix (Bitrix) için doğru Robots txt'sinin ana formatı:

  1. Efsane robots.txt.
  2. , yalnızca not olarak kullanılan yorumları ekler.
  3. Bu yorumlar, herhangi bir kullanıcı yazım hatasıyla birlikte tarayıcılar tarafından yok sayılır.
  4. User-agent - dosyaya ilişkin talimatların hangi arama motorunda listelendiğini belirtir.
  5. Yıldız işareti () eklemek, tarayıcılara talimatların herkes için olduğunu söyler.

Belirli bir botu belirtme, örneğin Googlebot, Baiduspider, Applebot. İzin verme, tarayıcılara web sitesinin hangi bölümlerinin taranmaması gerektiğini söyler. Şuna benziyor: Kullanıcı aracısı:. Yıldız işareti "tüm botlar" anlamına gelir. Ancak, belirli sayfalar için sayfalar belirleyebilirsiniz.botlar. Bunu yapmak için önerilerin ayarlandığı botun adını bilmeniz gerekir.

Yandex için doğru robots txt dosyası şöyle görünebilir:

Yandex için doğru robots txt
Yandex için doğru robots txt

Bot siteyi taramayacaksa, bunu belirtebilirsiniz ve kullanıcı aracılarının adlarını bulmak için useragentstring.com'un çevrimiçi özelliklerini tanımanız önerilir.

Sayfa optimizasyonu

Sayfa optimizasyonu
Sayfa optimizasyonu

Aşağıdaki iki satır, eksiksiz bir robots.txt dosyası olarak kabul edilir ve tek bir robots dosyası, taramayı devre dışı bırakan veya etkinleştiren birden çok kullanıcı aracısı ve yönerge satırı içerebilir. Doğru Robots txt'sinin ana formatı:

  1. Kullanıcı aracısı: [aracı kullanıcı adı].
  2. Disallow: [taranmayan URL dizesi].

Dosyada, her yönerge bloğu ayrı bir satırla ayrılmış olarak görüntülenir. Aracı kullanıcı dizininin yanındaki dosyada, her kural belirli bir bölümle ayrılmış satır kümesine uygulanır. Bir dosyanın çoklu aracı kuralı varsa, robot yalnızca en spesifik talimat grubunu dikkate alacaktır.

Teknik sözdizimi

Teknik Sözdizimi
Teknik Sözdizimi

Robots.txt dosyalarının "dili" olarak düşünülebilir. Bu formatta var olabilecek beş terim vardır, başlıcaları şunlardır:

  1. User-agent - Tarama talimatlarına sahip web tarayıcısı, genellikle bir arama motorudur.
  2. Disallow, kullanıcı aracısına atlamasını söylemek için kullanılan bir komuttur(ihmal) belirli bir URL'nin. Her biri için sadece bir yasak koşul vardır.
  3. İzin ver. Erişim sağlayan Googlebot için kullanıcı sayfası bile reddedilir.
  4. Tarama gecikmesi - tarayıcının taramadan önce kaç saniyeye ihtiyacı olacağını belirtir. Bot onaylamadığında hız Google konsolunda ayarlanır.
  5. Site Haritası - Bir URL ile ilişkili tüm XML haritalarını bulmak için kullanılır.

Desen Eşleşmeleri

İş URL'leri gerçekten engellemek veya geçerli Robots txt'sine izin vermek söz konusu olduğunda, bir dizi olası URL parametresini kapsamak için kalıp eşleştirmeyi kullanmanıza izin verdikleri için işlemler oldukça zor olabilir. Google ve Bing, SEO'nun hariç tutmak istediği sayfaları veya alt klasörleri tanımlayan iki karakter kullanır. İki karakter, yıldız işareti () ve dolar işaretidir ($), burada:, herhangi bir karakter dizisini temsil eden bir joker karakterdir. $ - URL'nin sonuyla eşleşir.

Google, kullanıcıya bir Robots txt dosyasını nasıl düzgün şekilde kuracağını açıklayan geniş bir olası şablon sözdizimi listesi sunar. Bazı yaygın kullanım örnekleri şunlardır:

  1. Yinelenen içeriğin arama sonuçlarında görünmesini önleyin.
  2. Web sitesinin tüm bölümlerini gizli tutun.
  3. Açık ifadeye dayalı olarak arama sonuçlarının dahili sayfalarını kaydedin.
  4. Konumu belirtin.
  5. Arama motorlarının belirli bir dizini dizine eklemesini önleyindosyalar.
  6. Aynı anda birden fazla içerik alanını tararken yeniden yüklemeyi durdurmak için bir tarama gecikmesi belirtme.

Bir robot dosyasının varlığını kontrol etme

Sitede taranması gereken alanlar yoksa robots.txt dosyasına hiç gerek yoktur. Kullanıcı bu dosyanın var olduğundan emin değilse, kök etki alanını girmesi ve URL'nin sonuna şunun gibi bir şey yazması gerekir: moz.com/robots.txt. Bir dizi arama botu bu dosyaları görmezden gelir. Ancak, kural olarak, bu tarayıcılar saygın arama motorlarına ait değildir. Bunlar, İnternette bolca bulunan spam gönderenler, posta toplayıcılar ve diğer otomatik bot türleridir.

Robot hariç tutma standardını kullanmanın etkili bir güvenlik önlemi olmadığını hatırlamak çok önemlidir. Aslında, bazı botlar, kullanıcının onları tarama moduna ayarladığı sayfalarla başlayabilir. Standart istisna dosyasına giren birkaç bölüm vardır. Robota hangi sayfalarda çalışmaması gerektiğini söylemeden önce hangi robotla konuşacağını belirlemelisin. Çoğu durumda, kullanıcı "tüm botlar" anlamına gelen basit bir bildirim kullanır.

SEO optimizasyonu

SEO optimizasyonu
SEO optimizasyonu

Optimizasyondan önce kullanıcı, sitenin atlanması gereken herhangi bir içeriğini veya bölümünü engellemediğinden emin olmalıdır. Doğru Robots txt tarafından engellenen sayfaların bağlantılarına saygı gösterilmeyecektir. Bunun anlamı:

  1. Arama motorlarının erişebildiği diğer sayfalara bağlı değillerse, ör. sayfalar,robots.txt veya bir meta robot tarafından engellenmez ve ilgili kaynaklar taranmaz ve bu nedenle dizine eklenemez.
  2. Engellenen bir sayfadan bağlantı hedefine hiçbir bağlantı aktarılamaz. Böyle bir sayfa varsa robots.txt'den farklı bir engelleme mekanizması kullanmak daha iyidir.

Diğer sayfalar kişisel bilgileri içeren bir sayfaya doğrudan bağlantı verebileceğinden ve bu sayfayı arama sonuçlarından engellemek istediğinizden, parola koruması veya noindex meta verileri gibi farklı bir yöntem kullanın. Bazı arama motorlarında birden fazla kullanıcı aracısı bulunur. Örneğin, Google, organik aramalar için Googlebot'u ve görsel aramalar için Googlebot-Image'ı kullanır.

Aynı arama motorundaki çoğu kullanıcı aracısı aynı kuralları takip eder, bu nedenle birkaç tarayıcının her biri için yönerge belirtmeye gerek yoktur, ancak bunu yapabilmek site içeriğinin taranmasında ince ayar yapabilir. Arama motoru dosyanın içeriğini önbelleğe alır ve genellikle önbelleğe alınan içeriği günde en az bir kez günceller. Kullanıcı dosyayı değiştirir ve normalden daha hızlı güncellemek isterse robots.txt URL'sini Google'a gönderebilir.

Arama motorları

Bir robot dosyasının varlığını kontrol etme
Bir robot dosyasının varlığını kontrol etme

Robots txt'nin nasıl doğru çalıştığını anlamak için arama motorlarının yeteneklerini bilmeniz gerekir. Kısacası, yetenekleri, "tarayıcıları" göndermeleri gerçeğinde yatmaktadır.bilgi için internette gezinme. Daha sonra bu bilgilerin bir kısmını daha sonra kullanıcıya iletmek üzere saklarlar.

Birçok insan için Google zaten İnternet'tir. Aslında haklılar, çünkü bu onun belki de en önemli icadı. Arama motorları başlangıcından bu yana çok değişmiş olsa da, temel prensipler hala aynı. "Botlar" veya "örümcekler" olarak da bilinen tarayıcılar, milyarlarca web sitesindeki sayfaları bulur. Arama motorları onlara nereye gidecekleri konusunda yol tarifi verirken, tek tek siteler de botlarla iletişim kurabilir ve onlara hangi belirli sayfalara bakmaları gerektiğini söyleyebilir.

Genel olarak, site sahipleri arama motorlarında görünmek istemezler: yönetici sayfaları, arka uç portalları, kategoriler ve etiketler ve diğer bilgi sayfaları. Robots.txt dosyası, arama motorlarının sayfaları kontrol etmesini önlemek için de kullanılabilir. Kısacası robots.txt, web tarayıcılarına ne yapmaları gerektiğini söyler.

Sayfaları Yasakla

Bu, robot dışlama dosyasının ana kısmıdır. Basit bir bildirimle kullanıcı, bir bot veya bot grubuna belirli sayfaları taramamalarını söyler. Sözdizimi basittir, örneğin sitenin "admin" dizinindeki her şeye erişimi reddetmek için şunu yazın: Disallow: /admin. Bu satır, botların siteniz.com/admin, siteniz.com/admin/login, siteniz.com/admin/files/secret.html ve admin dizini altındaki diğer her şeyi taramasını engeller.

Bir sayfaya izin vermemek için, onu izin verme satırında belirtmeniz yeterlidir: İzin Verme: /public/exception.html. Şimdi "istisna" sayfasıtaşınmayacak, ancak "genel" klasördeki diğer her şey taşınacaktır.

Birden çok sayfa eklemek için bunları listelemeniz yeterlidir:

Dizinler ve sayfalar
Dizinler ve sayfalar

Senfoni için doğru Robots txt'sinin bu dört satırı, https://www.symphonyspace.org/. içinrobots.txt bölümünün en üstünde listelenen herhangi bir kullanıcı aracısı için geçerli olacaktır.

Sayfaları yasakla
Sayfaları yasakla

Site Haritası:

Diğer komutlar:live - web tarayıcılarının cpresources/ veya sağlayıcı/ dizine eklemesine izin vermeyin.

Kullanıcı Aracısı:İzin Verme: /cpresources/.

Reddet: / satıcı / İzin verme: /.env.

Standartları belirleme

Kullanıcı, önceki iki öğeyi birleştirerek farklı botlar için belirli sayfalar belirleyebilir, bu şekilde görünür. Tüm arama motorları için doğru bir Robots txt örneği aşağıda sunulmuştur.

Standartları Belirleme
Standartları Belirleme

"Yönetici" ve "özel" bölümler Google ve Bing tarafından görülemeyecek, ancak Google "gizli" dizini görmeye devam ederken Bing göremeyecek. Yıldız kullanıcı aracısını kullanarak tüm botlar için genel kurallar belirleyebilir ve ardından aşağıdaki bölümlerde botlara özel talimatlar verebilirsiniz. Yukarıdaki bilgilerle kullanıcı, tüm arama motorları için doğru Robots txt örneğini yazabilir. En sevdiğiniz metin düzenleyiciyi çalıştırın ve botlara sitenin belirli bölümlerinde hoş karşılanmadıklarını söyleyin.

Sunucu performansını iyileştirmek için ipuçları

SublimeText (şimdiki değeri)çok yönlü bir metin düzenleyici ve birçok programcı için altın standart. Üstelik programlama ipuçları verimli kodlamaya dayanıyor. kullanıcılar programdaki kısayolların varlığını takdir eder. Kullanıcı bir robots.txt dosyası örneği görmek isterse, herhangi bir siteye gitmeli ve sonuna "/robots.txt" eklemelidir. İşte robots.txt dosyasının bir parçası GiantBicycles.

Program, kullanıcıların arama motorlarında görünmesini istemediği sayfaların oluşturulmasını sağlar. Ayrıca çok az kişinin bildiği birkaç özel şey var. Örneğin, robots.txt dosyası botlara nereye gitmemeleri gerektiğini söylerken, site haritası dosyası bunun tam tersini yaparak aradıklarını bulmalarına yardımcı olur ve arama motorları site haritasının nerede olduğunu muhtemelen zaten biliyor olsa da, botları bulamaz. yolda.

İki tür dosya vardır: HTML sayfası veya XML dosyası. HTML sayfası, ziyaretçilere bir web sitesindeki tüm mevcut sayfaları gösteren sayfadır. Kendi robots.txt dosyasında şöyle görünür: Sitemap://www.makeuseof.com/sitemap_index.xml. Site, web robotları tarafından birkaç kez taranmasına rağmen arama motorları tarafından dizine eklenmemişse, dosyanın mevcut olduğundan ve izinlerinin doğru ayarlandığından emin olmanız gerekir.

Varsayılan olarak, bu tüm SeoToaster kurulumlarında olur, ancak gerekirse, şu şekilde sıfırlayabilirsiniz: Dosya robots.txt - 644. PHP sunucusuna bağlı olarak, bu kullanıcı için işe yaramazsa, aşağıdakileri denemeniz önerilir: Dosya robots.txt - 666.

Tarama gecikmesini ayarlama

Baypas gecikme yönergesi, belirliarama motorları, sitedeki bir sayfayı ne sıklıkla dizine ekleyebileceklerini gösterir. Bazı arama motorları biraz farklı yorumlasa da, saniye cinsinden ölçülür. Bazı kişiler, her taramadan sonra bir sonrakini başlatmak için beş saniye beklemeleri söylendiğinde tarama gecikmesi 5'i görür.

Diğerleri bunu her beş saniyede bir yalnızca bir sayfa tarama talimatı olarak yorumlar. Robot, sunucu bant genişliğini korumak için daha hızlı tarayamaz. Sunucunun trafiğe uyması gerekiyorsa, bir baypas gecikmesi ayarlayabilir. Genel olarak, çoğu durumda, kullanıcıların bu konuda endişelenmesine gerek yoktur. Sekiz saniyelik tarama gecikmesi bu şekilde ayarlanır - Tarama gecikmesi: 8.

Ancak tüm arama motorları bu yönergeye uymaz, bu nedenle sayfalara izin vermezken belirli arama motorları için farklı tarama gecikmeleri ayarlayabilirsiniz. Dosyadaki tüm talimatlar ayarlandıktan sonra siteye yükleyebilir, öncelikle basit bir metin dosyası olduğundan ve robots.txt adına sahip olduğundan emin olun ve siteniz.com/robots.txt. adresinde bulunabilir.

En iyi WordPress botu

En İyi WordPress Botu
En İyi WordPress Botu

Bir WordPress sitesinde her seferinde kilitlenmesi gereken bazı dosyalar ve dizinler vardır. Kullanıcıların izin vermemesi gereken dizinler, cgi-bin dizini ve standart WP dizinleridir. Bazı sunucular cgi-bin dizinine erişime izin vermez, ancak kullanıcılar Robots txt WordPress düzgün bir şekilde yapılandırmadan önce bunu izin verilmeyen yönergesine eklemelidir.

Standart WordPress dizinleri,engellemesi gerekenler wp-admin, wp-content, wp-includes. Bu dizinler, başlangıçta arama motorları için yararlı olan verileri içermez, ancak bir istisna vardır, yani wp-içerik dizininde uploads adlı bir alt dizin vardır. WP medya yükleme özelliği kullanılarak yüklenen her şeyi içerdiğinden robot.txt dosyasında bu alt dizine izin verilmelidir. WordPress, içeriği yapılandırmak için etiketler veya kategoriler kullanır.

Kategoriler kullanılıyorsa, program üreticisi tarafından belirtildiği gibi Wordpress için doğru Robots txt'sini yapmak için etiket arşivlerinin aramadan engellenmesi gerekir. Önce "Yönetim" panel> "Ayarlar"> "Kalıcı bağlantı"ya giderek veritabanını kontrol ederler.

Varsayılan olarak, alan boşsa temel etikettir: İzin Verme: / etiketi /. Bir kategori kullanılıyorsa, robot.txt dosyasındaki kategoriyi devre dışı bırakmalısınız: Disallow: /category/. Varsayılan olarak, alan boşsa temel etikettir: Disallow: / tag /. Bir kategori kullanılıyorsa, robot.txt dosyasındaki kategoriyi devre dışı bırakmalısınız: Disallow: / kategori /.

Öncelikle içeriği görüntülemek için kullanılan dosyalar, Wordpress için doğru Robots txt dosyası tarafından engellenir:

Wordpress için robotlar txt
Wordpress için robotlar txt

Joomla temel kurulumu

Kullanıcı Joomla'yı yükledikten sonra, kontrol panelinde bulunan global konfigürasyonda doğru Joomla Robots txt ayarını görüntülemeniz gerekir. Buradaki bazı ayarlar SEO için çok önemlidir. Önce sitenin adını bulun ve emin olunsitenin kısa adı kullanılmıştır. Ardından aynı ekranın sağ tarafında SEO ayarları adı verilen bir ayar grubu bulurlar. Kesinlikle değişmesi gereken ikincisidir: yeniden yazma URL'si kullanın.

Bu karmaşık gelebilir, ancak temelde Joomla'nın daha temiz URL'ler oluşturmasına yardımcı olur. En çok, URL'lerden index.php satırını kaldırırsanız fark edilir. Daha sonra değiştirirseniz, URL'ler değişecek ve Google bundan hoşlanmayacaktır. Ancak, bu ayarı değiştirirken, Joomla için doğru robots txt'sini oluşturmak için aynı anda birkaç adım atılmalıdır:

  1. Joomla kök klasöründe htaccess.txt dosyasını bulun.
  2. .htaccess (uzantı yok) olarak işaretleyin.
  3. Site adını sayfa başlıklarına dahil edin.
  4. Genel yapılandırma ekranının alt kısmında meta veri ayarlarını bulun.

Bulutta robot MODX

MODX Bulutunda Robot
MODX Bulutunda Robot

Önceden, MODX Cloud, kullanıcılara robots.txt dosyasının panodaki bir geçişe göre sunulmasına izin verme davranışını kontrol etme yeteneği sağlıyordu. Bu yararlı olsa da, Panodaki bir seçeneği değiştirerek hazırlama/geliştirme sitelerinde dizine eklemeye yanlışlıkla izin vermek mümkündü. Benzer şekilde, üretim sitesinde dizine eklemeyi devre dışı bırakmak da kolaydı.

Bugün hizmet, aşağıdaki istisna dışında dosya sisteminde robots.txt dosyalarının varlığını varsayar: modxcloud.com ile biten herhangi bir etki alanı, mevcudiyetinden bağımsız olarak tüm kullanıcı aracıları için bir Disallow: / yönergesi olarak hizmet edecektir. veya dosyanın yokluğu. Kullanıcı sitelerini dizine eklemek isterse, gerçek ziyaretçi trafiği alan üretim sitelerinin kendi alan adlarını kullanmaları gerekir.

Bazı kuruluşlar, Bağlamları kullanarak tek bir kurulumdan birden çok web sitesini çalıştırmak için modx için doğru Robots txt'sini kullanır. Bunun uygulanabileceği bir örnek, açılış sayfası mikro siteleri ve muhtemelen halka açık olmayan bir intranet ile birleştirilmiş bir genel pazarlama sitesi olabilir.

Geleneksel olarak, aynı ağ kökünü paylaştıklarından çok kullanıcılı kurulumlar için bunu yapmak zor olmuştur. MODX Cloud ile bu kolaydır. Robots-intranet.example.com.txt adlı bir web sitesine aşağıdaki içeriğe sahip fazladan bir dosya yüklemeniz yeterlidir; bu, iyi çalışan robotlarla dizin oluşturmayı engeller ve başka belirli ad düğümleri olmadıkça diğer tüm ana bilgisayar adları standart dosyalara geri döner.

Robots.txt, kullanıcının siteye Google, büyük arama motorları ve diğer web sitelerinde bağlantı vermesine yardımcı olan önemli bir dosyadır. Bir web sunucusunun kökünde bulunan dosya, web robotlarına bir siteyi taramaları, Bot Hariç Tutma Protokolü adı verilen bir dizi talimat kullanarak hangi klasörleri dizine eklemesi veya dizine eklememesi gerektiğini belirleme talimatı verir. Tüm arama motorları obots.txt için doğru Robots txt örneğini SeoToaster ile yapmak özellikle kolaydır. Kontrol panelinde bunun için özel bir menü oluşturuldu, böylece bot erişim kazanmak için asla fazla çalışmak zorunda kalmayacak.

Önerilen: