FAQ robots.txt: часто задаваемые вопросы

#SEO

3 мин. 31-05-2019

Содержание статьи

Robots.txt - что это?
Нужен или нет robots.txt?
Где находится файл robots.txt?
Как выглядит стандартный robots.txt?
Что должно быть в robots.txt?
Как выглядит Robots.txt для Гугла и Яндекса?
Как указать главное зеркало в robots.txt?
Как прописать карту сайта в robots.txt?
Что обозначают символы в robots.txt?
Как настроить robots.txt?
Как проверить robots.txt?
Ошибки в robots.txt

Robots.txt - что это?

Файл robots.txt — это индексный файл в текстовом формате, который рекомендует поисковым роботам (например, Google, Yandex) какие страницы сканировать, а какие нет.

Нужен или нет robots.txt?

Однозначно да. Он помогает поисковым роботам быстрее разобраться какие страницы нужно индексировать, а какие нет.

Где находится файл robots.txt?

Файл располагается в корневой папке сайта и доступный для просмотра по адресу: https://site.ua/robots.txt

Как выглядит стандартный robots.txt?

Robots.txt пример:

Пример файла robots.txt

Что должно быть в robots.txt?

Атрибуты robots.txt:

User-agent — описывает каким именно роботам нужно смотреть инструкцию. Существует около 300 поисковых роботов (Googlebot, Yandexbot и т.д.). Чтобы указать инструкции сразу для всех роботов следует прописать:

Другие роботы:
- Ahrefsbot;
- Exabot;
- SemrushBot;
- Baiduspider;
- Mail.RU_Bot.
Список ненужных ботов ЗДЕСЬ.
Disallow — указывает роботу, что не нужно сканировать.
Открыть для сканирования весь сайт (robots.txt разрешить все):

Запретить сканирование всего сайта (robots.txt запретить все):

Robots.txt запретить индексацию папки:

Запретить индексацию страницы в robots.txt:

Запретить индексацию конкретного файла:

Запрет индексации всех файлов на сайте с расширением .pdf:

Запретить индексацию поддомена в robots.txt:
Каждый поддомен имеет свой файл robots.txt. Если его нет — создайте и добавьте в корневую папку поддомена.
Закрыть все кроме главной в robots.txt:
Allow — разрешает роботу сканировать сайт/папку/конкретную страницу.
Например, чтобы разрешить роботу сканировать страницы каталога, а все остальное закрыть:

Как выглядит Robots.txt для Гугла и Яндекса?

Robots.txt для Гугла и Яндекса

Как указать главное зеркало в robots.txt?

Для обозначения главного зеркала (копии сайта, доступной по разным адресам) используют атрибут Host.
Host в robots.txt:

Как прописать карту сайта в robots.txt?

Карта сайта (sitemap.xml) сообщает поисковым роботам приоритетные страницы для индексации. Она находится по адресу: https://site.com/sitemap.xml.
Sitemap в robots.txt:
Карта сайта в robots.txt

Что обозначают символы в robots.txt?

Наиболее часто используются следующие символы:

“/” - закрытие от робота весь сайт/папку/страницу;
“*” - любая последовательность символов;
“$” - ограничение действия знака “*”;
“#” - комментарии, которые не учитываются роботами.

Как настроить robots.txt?

В файле обязательно нужно отдельно для каждого робота прописать, что открыто для сканирования и что закрыто, прописать хост и карту сайта.

Файлы robots.txt различаются между собой в зависимости от используемой CMS.

Рекомендуем закрывать от индексации страницы: авторизации, фильтрации, поиска, страницу 404, вход в админку.

Пример идеального robots.txt:

Идеальный robots.txt

Как проверить robots.txt?

Чтобы проверить валидность robots.txt (правильно ли заполнен файл) — используйте инструмент для вебмастеров Google Search Console. Для этого достаточно ввести код файла в форму, указать сайт и Вы получите отчет о корректности файла:
GSC robots.txt

Ошибки в robots.txt

Перепутали местами инструкции.
Неправильно:

Правильно:
Записали пару директорий сразу в одной инструкции:
Не правильное название файла — не Robot.txt и не ROBOTS.TXT, а robots.txt!
Правило User-agent не должно быть пустым, обязательно нужно указывать для каких роботов оно действует.
Следите, чтобы не указать лишних символов в файле (“/”, “*”, “$” и т.д.).
Не открывайте для сканирования страницы, которые не нужны в индексе.