Мы в социальных сетях
Я здесь, потому что хочу:

FAQ robots.txt: часто задаваемые вопросы

3 мин. 31-05-2019

Robots.txt - что это?

Файл robots.txt — это индексный файл в текстовом формате, который рекомендует поисковым роботам (например, Google, Yandex) какие страницы сканировать, а какие нет.

Нужен или нет robots.txt?

Однозначно да. Он помогает поисковым роботам быстрее разобраться какие страницы нужно индексировать, а какие нет.

Где находится файл robots.txt?

Файл располагается в корневой папке сайта и доступный для просмотра по адресу: https://site.ua/robots.txt

Как выглядит стандартный robots.txt?

Robots.txt пример:

Пример файла robots.txt

Что должно быть в robots.txt?

Атрибуты robots.txt:

  1. User-agent — описывает каким именно роботам нужно смотреть инструкцию. Существует около 300 поисковых роботов (Googlebot, Yandexbot и т.д.). Чтобы указать инструкции сразу для всех роботов следует прописать:
    Пример user-agent
    Другие роботы:
    • Ahrefsbot;
    • Exabot;
    • SemrushBot;
    • Baiduspider;
    • Mail.RU_Bot.
    Список ненужных ботов ЗДЕСЬ.
  2. Disallow — указывает роботу, что не нужно сканировать.
    Открыть для сканирования весь сайт (robots.txt разрешить все):
    Пример disallow
    Запретить сканирование всего сайта (robots.txt запретить все):
    Запретить индексацию disallow
    Robots.txt запретить индексацию папки:
    Запретить индексацию папки
    Запретить индексацию страницы в robots.txt:
    Запретить индексацию страницы в robots
    Запретить индексацию конкретного файла:
    Запретить индексацию конкретного файла
    Запрет индексации всех файлов на сайте с расширением .pdf:
    Запретить индексацию pdf
    Запретить индексацию поддомена в robots.txt:
    Каждый поддомен имеет свой файл robots.txt. Если его нет — создайте и добавьте в корневую папку поддомена.
    Закрыть все кроме главной в robots.txt:
    Закрыть все кроме главной в robots
  3. Allow — разрешает роботу сканировать сайт/папку/конкретную страницу.
    Например, чтобы разрешить роботу сканировать страницы каталога, а все остальное закрыть:
    Атрибут Allow

Как выглядит Robots.txt для Гугла и Яндекса?

Robots.txt для Гугла и Яндекса

Как указать главное зеркало в robots.txt?

Для обозначения главного зеркала (копии сайта, доступной по разным адресам) используют атрибут Host.
Host в robots.txt:
Атрибут Host

Как прописать карту сайта в robots.txt?

Карта сайта (sitemap.xml) сообщает поисковым роботам приоритетные страницы для индексации. Она находится по адресу: https://site.com/sitemap.xml.
Sitemap в robots.txt:
Карта сайта в robots.txt

Что обозначают символы в robots.txt?

Наиболее часто используются следующие символы:

  • “/” - закрытие от робота весь сайт/папку/страницу;
  • “*” - любая последовательность символов;
  • “$” - ограничение действия знака “*”;
  • “#” - комментарии, которые не учитываются роботами.

Как настроить robots.txt?

В файле обязательно нужно отдельно для каждого робота прописать, что открыто для сканирования и что закрыто, прописать хост и карту сайта.

Файлы robots.txt различаются между собой в зависимости от используемой CMS.

Рекомендуем закрывать от индексации страницы: авторизации, фильтрации, поиска, страницу 404, вход в админку.

Пример идеального robots.txt:

Идеальный robots.txt

Как проверить robots.txt?

Чтобы проверить валидность robots.txt (правильно ли заполнен файл) — используйте инструмент для вебмастеров Google Search Console.  Для этого достаточно ввести код файла в форму, указать сайт и Вы получите отчет о корректности файла:
GSC robots.txt

Ошибки в robots.txt

  1. Перепутали местами инструкции.
    Неправильно:
    Неправильно
    Правильно:
    Правильно
  2. Записали пару директорий сразу в одной инструкции:
    Несколько папок в одной инструкции
  3. Не правильное название файла — не Robot.txt и не ROBOTS.TXT, а robots.txt!
  4. Правило User-agent не должно быть пустым, обязательно нужно указывать для каких роботов оно действует.
  5. Следите, чтобы не указать лишних символов в файле (“/”, “*”, “$” и т.д.).
  6. Не открывайте для сканирования страницы, которые не нужны в индексе.

Подойдите со всей ответственностью к формированию файла robots.txt — и будет Вам счастье ;)

Комментарии

Разработка, раскрутка и поддержка сайта

Мы вместе создадим лучшее дизайнерское решение для вашего магазина. Оптимальные решения обеспечат уникальный вид Вашему интернет-магазину.

Разработка и поддержка
Сергей:
Раскрутка и реклама
Олег:
facebook telegram viber smartphone
Бажаєте встановити наш додаток?