Файл robots.txt, описание деректив
Отредактировано: 02 Марта 2018
Синтаксис файла robots.txt
Спецсимволы
В качестве спецсимволов используется стандарт POSIX.
* — любое количество любых символов
$ — конец строки
User-agent
Директива задающая имя робота, для которого написан блок праил ниже. Общая запись для всех ботов
User-agent: *
Список официальных роботов. В России чаще всего устанавливают различные правила для Google и Yandex ботов.
- Googlebot — основной индексирующий робот
- Googlebot-News — робот поиска новостей
- Googlebot-Image — робот картинок
- Googlebot-Video — робот видео
- Googlebot-Mobile — робот мобильной версии
- AdsBot-Google — робот проверки качества целевой страницы
- Mediapartners-Google — робот сервиса AdSense
- YandexBot — основной индексирующий робот
- YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
- YandexDirectDyn — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
- YandexMedia — робот, индексирующий мультимедийные данные;
- YandexImages — индексатор Яндекс.Картинок;
- YaDirectFetcher — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
- YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
- YandexNews — робот Яндекс.Новостей;
- YandexPagechecker — валидатор микроразметки;
- YandexMetrika — робот Яндекс.Метрики;
- YandexMarket— робот Яндекс.Маркета;
- YandexCalendar — робот Яндекс.Календаря.
Disallow
Запрет на индексирование.
# Запрещаем индексирование всех файлов и папок в которых есть name
Disallow: /name
# Запрещаем индексирование папки
Disallow: /name/
# Запрещаем индексирование файла
Disallow: /name/page.html
# Запрещаем индексирование типа файлов
Disallow: /*.png$
Не все поисковые системы поддерживают регулярные выражения
Allow
Разрешение на индексирование. Можно разрешить проиндексировать определенный файл или адрес в запрещенной директории
Allow: /template/*.js
Allow: /template/*.css
Disallow: /template
Host
Указывает основной домен.
# для http
Host: www.riwkus.pro
# для https
Host: https://www.riwkus.pro
Sitemap
Директива указывающая на местонахождение файла sitemap.xml.
Sitemap: https://www.riwkus.pro/sitemap.xml
Crawl-delay
Минимальный период между запросами поисковых роботов. Эта деректива создана для того, чтобы исключить возможность слишком сильной нагрузки на сервер, создаваемой поисковыми роботами. Указывается в секундах. Работает не для всех поисковых систем.
Crawl-delay: 2
Clean-param
Свойство-фильтр для динамических параметров передающихся в url страницы (GET параметры). Если динамические параметры не влияют на результат отображающийся на странице, то их лучше скрыть от индексации, указав в этом параметре. Работает не для всех поисковых систем.
# Например, если у сайта есть фильтр,
# отображающий результаты по имени или по дате дате
#www.riwkus.ru/notes/?filtr=adc
#www.riwkus.ru/notes/?filtr=data
User-agent: Yandex
Disallow:
Clean-param: filtr /notes/
Здравствуйте!
Позвольте представиться, меня зовут Марина. Более 10 лет я занимаюсь обслуживанием сайтов и развитием интернет проектов. Если вы хотите избавиться от хлопот связанных с созданием и поддержкой сайта, тогда вы попали по адресу. При работе с сайтами я предоставляю качественные услуги, ориентируясь на ваши индивидуальные потребности. Для связи со мной воспользуйтесь формой обратной связи.