Файл robots.txt, описание деректив

Синтаксис файла robots.txt

Спецсимволы

В качестве спецсимволов используется стандарт POSIX.  

* — любое количество любых символов

$ — конец строки

User-agent 

Директива задающая имя робота, для которого написан блок праил ниже. Общая запись для всех ботов 

User-agent: *

Список официальных роботов. В России чаще всего устанавливают различные правила для Google и Yandex ботов.

Список роботов Google
  • Googlebot — основной индексирующий робот
  • Googlebot-News — робот поиска новостей
  • Googlebot-Image — робот картинок
  • Googlebot-Video — робот видео
  • Googlebot-Mobile — робот мобильной версии
  • AdsBot-Google — робот проверки качества целевой страницы
  • Mediapartners-Google — робот сервиса AdSense
Список роботов Yandex
  • YandexBot — основной индексирующий робот
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
  • YandexDirectDyn — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YandexImages — индексатор Яндекс.Картинок;
  • YaDirectFetcher — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
  • YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  • YandexNews — робот Яндекс.Новостей;
  • YandexPagechecker — валидатор микроразметки;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMarket— робот Яндекс.Маркета;
  • YandexCalendar — робот Яндекс.Календаря.

Disallow

Запрет на индексирование.

# Запрещаем индексирование всех файлов и папок в которых есть name
Disallow: /name   

# Запрещаем индексирование папки
Disallow: /name/

# Запрещаем индексирование файла     
Disallow: /name/page.html   

# Запрещаем индексирование типа файлов
Disallow: /*.png$     

Не все поисковые системы поддерживают регулярные выражения

Allow

Разрешение на индексирование. Можно разрешить проиндексировать определенный файл или адрес в запрещенной директории

Allow: /template/*.js
Allow: /template/*.css
Disallow: /template  

Host

Указывает основной домен. 

# для http
Host: www.riwkus.pro

# для https
Host: https://www.riwkus.pro

Sitemap

Директива указывающая на местонахождение файла sitemap.xml.

Sitemap: https://www.riwkus.pro/sitemap.xml

Crawl-delay

Минимальный период между запросами поисковых роботов. Эта деректива создана для того, чтобы исключить возможность слишком сильной нагрузки на сервер, создаваемой поисковыми роботами. Указывается в секундах. Работает не для всех поисковых систем.

Crawl-delay: 2

Clean-param

Свойство-фильтр для динамических параметров передающихся в url страницы (GET параметры). Если динамические параметры не влияют на результат отображающийся на странице, то их лучше скрыть от индексации, указав в этом параметре. Работает не для всех поисковых систем. 

# Например, если у сайта есть фильтр, 
# отображающий результаты по имени или по дате дате
#www.riwkus.ru/notes/?filtr=adc
#www.riwkus.ru/notes/?filtr=data

User-agent: Yandex
Disallow:
Clean-param: filtr /notes/