Нажмите клавишу «Enter», чтобы перейти к содержанию

Для чего нужен файл robots.txt сайту и как его правильно составить

0

Файл robots.txt – это обычный текстовый файл, находящийся в корне сайта, в котором находятся некие указания для роботов поисковых систем, что им нужно индексировать, а что нужно исключить. Его используют на любых типах сайтов, а в интернет-магазинах он особенно актуален, т.к. скрывать от индексации есть чего, иначе в поисковой выдаче есть риск увидеть совсем не те страницы, которые вы хотели бы видеть. Отсутствующий или неправильно составленный файл может сказаться на дальнейшем SEO-продвижении не в лучшую сторону, как вы понимаете.

Проверить есть ли у вас этот файл можно в корне вашего сайта используя файловый менеджер в панели управления хостингом, либо подключившись по FTP. А также при помощи добавления в адресную строку названия файла «robots.txt», должно получится что-то вроде – «https://ваш-сайт/robots.txt». Если файл существует, то вы увидите содержимое этого текстового файла с набором так называемых директив, о которых поговорим чуть ниже. Создать файл можно в любом текстовом редакторе, который поддерживает формат UTF-8.

Директивы файла robots.txt

Их в общем не много и разобраться не составит большого труда. Однако у Гугла и Яндекса количество директив различается, у Яндекса их чуть больше:

User-agent. Это обязательная директива, которая указывает для какого робота действуют правила. Часто правила прописывают для всех роботов, тогда вместо их названия используется звездочка – «*». Если же требуется написать правила отдельно для каждой поисковой системы или для конкретного робота в частности, то и это можно сделать, указав после директивы название робота. Их существует огромное количество (несколько сотен), но нам достаточно будет знать всего несколько для поисковых систем Яндекса и Гугла (их список я приведу ниже в этой статье).

Disallow. Эта директива является второй по значимости, она запрещает индексирование разделов или отдельных страниц сайта, а также каких-либо папок или файлов на сервере. Обычно с ее помощью закрывают от индексации административный раздел сайта, кабинет пользователя, корзину, либо иные страницы, которые могут содержать конфиденциальную информацию. Также можно закрыть какие-либо файлы и папки, которые вы храните на сервере для использования вашими сотрудниками или постоянными клиентами. Поисковики помимо индексации HTML страниц еще с легкостью умеют индексировать файлы MS Office (Word, Excel например) или PDF-файлы. Поэтому, не закрыв их от поисковиков, вы покажите тем самым эти файлы всему миру и эти данные будут доступны в результатах выдачи поисковых систем. Однако я не рекомендую хранить файлы с конференциальной информацией на своем сервере незащищенными, т.к. файл robots.txt не скрывает их никак от посторонних глаз, да и поисковая система их прекрасно видит, однако не индексирует, а соответственно эти данные просто не появляются в поисковой выдаче и найти их немного сложнее неподготовленному пользователю.

Allow. Эта директива напротив разрешает сканирование того или иного раздела сайта, отдельной страницы или каких-либо папок и файлов на сервере. Обычно используется для того, чтобы например в уже закрытой папке содержащей внутри огромное количество подпапок, открыть одну или несколько для индексации. Это значительно проще чем указывать для закрытия каждую подпапку в отдельности (ведь их на сервере могут быть десятки или даже сотни).

Sitemap. Эта директива указывает на наличие на сайте файла sitemap.xml. Это некая карта, которая содержит структуру вашего сайта и помогает поисковикам быстрее находить те страницы, которые еще не были проиндексированы или были недавно изменены. Указывается директива в виде полного URL с префиксами HTTP и HTTPS или с элементом WWW и без него.

Clean-param. Данная директива доступна только для робота Яндекса и используется чтобы исключить из индекса страницы, которые содержат в адресе GET-параметры (идентификаторы сессий или пользователей) или UTM-метки, которые не влияют на содержимое страницы. Это нужно для того, чтобы не было дублей, т.к. страницы с этими параметрами и без – это разные страницы для поисковика, даже если их содержимое идентично. А дубли страниц не очень хорошо влияют на SEO-продвижение.

Crawl-delay. Это устаревшая директива Яндекса, которая перестала учитываться 22 февраля 2018 года. Отвечала она за минимальный период времени в секундах, которые должны пройти между окончанием загрузки одной страницы и началом загрузки следующей. Вместо этого Яндекс рекомендует использовать настройку скорости обхода сайта в Яндекс.Вебмастере. Если у вас уже есть файл robots.txt на вашем сервере, и вы видите там эту директиву, то можете смело ее удалять.

Host. Это также уже устаревшая директива Яндекса, которая перестала учитываться 12 марта 2018 года. На замену ей пришел 301 редирект. Если вы хотите сменить главное зеркало сайта, то необходимо в Яндекс.Вебмастере в разделе «Индексирование -> Переезд сайта» его изменить. Практически у любого сайта сегодня есть зеркала, например для поисковой системы сайт c WWW и без него – это разные сайты, такие же дела обстоят и в случае с HTTP и HTTPS. Поэтому и нужно указывать обязательно что является главным зеркалом сайта.

В файле robots.txt при написании правил могут использоваться некоторые символы:

  • Звездочка «*» – означает любую последовательность символов.
  • Знак доллара «$» – означает завершение строки, после него уже не идут никакие символы.
  • Решетка «#» – это комментарий, который вы можете оставить. Все что будет после этого знака, не будет учитываться поисковиками.

Вот один из простых примеров robots.txt:

User-agent: * # указываем, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из Корзины с товарами
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: https://sitename.ru/sitemap.xml # указываем на файл sitemap для сайта

Роботы Яндекса и Google

Как писал выше, роботов существует огромное множество, но нам интересны только для Яндекса и Гугла, другие поисковые системы занимают очень маленький процент рынка и под них обычно правила не пишут. Делают либо для всех роботов (указывая в User-agent звездочку), либо пишут немного различающиеся правила для Яндекса и Google. Вот список тех, которые вам могут пригодится.

Роботы Яндекса:

  • Yandex — основной индексирующий робот Яндекса;
  • YandexImages — робот Яндекс.Картинок;
  • YandexAdNet — робот рекламной сети Яндекса;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMarket — робот Яндекс.Маркета;
  • YandexNews — робот Яндекс.Новостей;
  • YandexSpravBot — робот Яндекс.Справочника;
  • YandexWebmaster — робот Яндекс.Вебмастера;
  • YandexVideo — робот индексирует видео для показа на Яндекс.Видео;
  • YandexPagechecker — валидатор микроразметки;
  • YandexVertis — робот поисковых вертикалей;
  • YandexOntoDB — робот объектного ответа;
  • YandexMedia — робот индексирует мультимедийные данные;
  • YandexBlogs — робот поиска по блогам, индексирующий посты и комментарии;
  • YandexTurbo — робот обходит RSS-канал, созданный для формирования Турбо-страниц. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay.

Роботы Google:

  • Googlebot — основной индексирующий робот Google;
  • Googlebot-Image — индексация картинок Google;
  • Googlebot-Video — робот индексирует видео контент;
  • Googlebot-News — робот оценивает страницы для использования в Google новости.

Проверка robots.txt (анализ, онлайн-валидатор)

Инструменты проверки файла robots.txt есть как у Гугла, так и у Яндекса. Их можно найти в Google Search Console и в Яндекс.Вебмастере. Помимо того, что эти инструменты покажут сразу количество ошибок (если таковые будут), они еще дают возможность вводить конкретный URL-адрес и проверять, доступна ли страница по этому адресу для индексации поисковыми роботами или нет. Это полезно, когда в robot.txt прописано большое количество правил и есть опасение, что некоторые из них могут друг с другом конфликтовать.

Яндекс.Вебмастер проверка robots.txt

Также существуют и сторонние сервисы проверки файла robots.txt, но обычно штатных инструментов более чем достаточно. Тут хочу сразу оговорится, что если вы никогда не писали правил и слабо себе представляете что нужно закрывать от индексации, а что обязательно нужно оставлять открытым, то лучше обратиться к специалистам, которые учтут все моменты связанные с вашим конкретно взятым сайтом.

Примеры robots.txt для некоторых популярных CMS

Если ваш сайт построен на одной из популярных CMS-систем, то можно взять за основу уже готовые варианты robots.txt и немного его изменить под себя. Под каждую CMS он будет разным, так как отличается структура сайта, адреса генерируемых страниц и т.д. Тут увы нет универсальных решений который подойдут на 100% всем. Чуть ниже я постарался собрать универсальные правила для популярных CMS-систем (по большей части для интернет-магазинов), которые вы можете взять за основу. Обращаю ваше внимание на то, что правильных написаний может быть несколько для одного и того же сайта, я приведу пример только одного из вариантов для каждой CMS.

Robots.txt для 1С-Битрикс (Bitrix)

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: https://www.sitename.ru/sitemap.xml

Robots.txt для OpenCart (Опенкарт) & ocStore

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Robots.txt для Webasyst Shop-Script (Шопскрипт)

User-agent: *
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: */?sort=
Disallow: /cart/
Disallow: /order/
Disallow: /checkout/
Disallow: /my/
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/
Disallow: /webasyst/
Sitemap: https://www.sitename.ru/sitemap.xml

Robots.txt для WordPress (Вордпресс)

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: https://www.sitename.ru/sitemap.xml

Robots.txt для Joomla (Джумла)

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: https://www.sitename.ru/sitemap.xml