Полное руководство по robots.txt для SEO и управления краулингом
Файл robots.txt — простой текстовый файл в корне сайта, указывающий поисковым роботам, какие страницы они могут и не могут сканировать. Несмотря на простоту, ошибки в конфигурации приводят к серьёзным SEO-проблемам — случайная блокировка всего сайта от индексации встречается чаще, чем кажется.
Как работает robots.txt
Поисковый робот при посещении сайта сначала проверяет https://example.com/robots.txt. Файл содержит директивы, указывающие разрешённые и запрещённые пути для каждого робота (user-agent). Роботы следуют правилам добровольно — robots.txt это протокол, а не средство безопасности.
Базовый синтаксис
# Разрешить всё для всех роботов
User-agent: *
Allow: /
# Запретить /admin/ для всех
User-agent: *
Disallow: /admin/
# Запретить Googlebot доступ к директории
User-agent: Googlebot
Disallow: /private/
# Расположение карты сайта
Sitemap: https://example.com/sitemap.xml
Основные директивы
- User-agent: указывает, к какому роботу применяются правила.
*— все роботы. - Disallow: блокирует сканирование указанных путей.
Disallow: /блокирует всё. - Allow: явно разрешает сканирование. Полезно для переопределения Disallow.
- Sitemap: указывает на XML-карту сайта. Можно указать несколько.
- Crawl-delay: задержка между запросами (секунды). Учитывается Bing и Yandex, игнорируется Google.
Шаблоны URL
*— любая последовательность символов:Disallow: /*.pdf$блокирует все PDF$— конец URL:Disallow: /page$блокирует/page, но не/page/sub- Пути чувствительны к регистру
Типичные паттерны
Блокировка результатов поиска
User-agent: *
Disallow: /search
Disallow: /*?q=
Disallow: /*?s=
Блокировка URL-параметров
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Блокировка dev/staging
User-agent: *
Disallow: /staging/
Disallow: /dev/
Disallow: /test/
robots.txt vs meta robots vs X-Robots-Tag
| Метод | Область | Блокирует краулинг | Блокирует индексацию |
|---|---|---|---|
| robots.txt | Пути/директории | Да | Нет (косвенно) |
| meta robots | Отдельные страницы | Нет | Да (noindex) |
| X-Robots-Tag | Любой URL (заголовок) | Нет | Да (noindex) |
Важно: robots.txt предотвращает краулинг, а не индексацию. Если на запрещённую страницу есть внешние ссылки, поисковики могут проиндексировать URL (без контента). Для блокировки индексации используйте noindex.
Тестирование
- Google Search Console: инструмент тестирования robots.txt
- Яндекс.Вебмастер: анализ robots.txt
- Bing Webmaster Tools: аналогичная функциональность
- Браузер: просто откройте
https://yoursite.com/robots.txt
Типичные ошибки
- Блокировка CSS/JS: мешает роботам рендерить страницу
- Блокировка всего сайта:
Disallow: /— часто остаётся от staging - Защита контента: robots.txt публичен, не средство безопасности
- Блокировка sitemap.xml: не блокируйте путь к карте сайта
- Путаница со слешами:
/adminсовпадает с/admin-panel. Для директорий используйте/admin/
Лучшие практики
- robots.txt в корне домена
- Всегда указывайте Sitemap
- Тестируйте изменения перед деплоем
- Для скрытия данных используйте аутентификацию, а не robots.txt
- Мониторьте ошибки краулинга после изменений
- Пересматривайте robots.txt ежеквартально
Заключение
robots.txt маленький, но мощный. Правильная настройка помогает поисковикам эффективно сканировать сайт. Тестируйте изменения и помните: robots.txt управляет краулингом, а не индексацией.
Проверьте ваш сайт прямо сейчас
Проверить →