Полное руководство по robots.txt для SEO и управления краулингом

Anatoly Oshmanovsky

SEO

Полное руководство по robots.txt для SEO и управления краулингом

Опубликовано: 16.03.2026 · 3 мин чтения · 46 просмотров

Файл robots.txt — простой текстовый файл в корне сайта, указывающий поисковым роботам, какие страницы они могут и не могут сканировать. Несмотря на простоту, ошибки в конфигурации приводят к серьёзным SEO-проблемам — случайная блокировка всего сайта от индексации встречается чаще, чем кажется.

Как работает robots.txt

Поисковый робот при посещении сайта сначала проверяет https://example.com/robots.txt. Файл содержит директивы, указывающие разрешённые и запрещённые пути для каждого робота (user-agent). Роботы следуют правилам добровольно — robots.txt это протокол, а не средство безопасности.

Базовый синтаксис

# Разрешить всё для всех роботов
User-agent: *
Allow: /

# Запретить /admin/ для всех
User-agent: *
Disallow: /admin/

# Запретить Googlebot доступ к директории
User-agent: Googlebot
Disallow: /private/

# Расположение карты сайта
Sitemap: https://example.com/sitemap.xml

Основные директивы

User-agent: указывает, к какому роботу применяются правила. * — все роботы.
Disallow: блокирует сканирование указанных путей. Disallow: / блокирует всё.
Allow: явно разрешает сканирование. Полезно для переопределения Disallow.
Sitemap: указывает на XML-карту сайта. Можно указать несколько.
Crawl-delay: задержка между запросами (секунды). Учитывается Bing и Yandex, игнорируется Google.

Шаблоны URL

* — любая последовательность символов: Disallow: /*.pdf$ блокирует все PDF
$ — конец URL: Disallow: /page$ блокирует /page, но не /page/sub
Пути чувствительны к регистру

Типичные паттерны

Блокировка результатов поиска

User-agent: *
Disallow: /search
Disallow: /*?q=
Disallow: /*?s=

Блокировка URL-параметров

User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=

Блокировка dev/staging

User-agent: *
Disallow: /staging/
Disallow: /dev/
Disallow: /test/

robots.txt vs meta robots vs X-Robots-Tag

Метод	Область	Блокирует краулинг	Блокирует индексацию
robots.txt	Пути/директории	Да	Нет (косвенно)
meta robots	Отдельные страницы	Нет	Да (noindex)
X-Robots-Tag	Любой URL (заголовок)	Нет	Да (noindex)

Важно: robots.txt предотвращает краулинг, а не индексацию. Если на запрещённую страницу есть внешние ссылки, поисковики могут проиндексировать URL (без контента). Для блокировки индексации используйте noindex.

Тестирование

Google Search Console: инструмент тестирования robots.txt
Яндекс.Вебмастер: анализ robots.txt
Bing Webmaster Tools: аналогичная функциональность
Браузер: просто откройте https://yoursite.com/robots.txt

Типичные ошибки

Блокировка CSS/JS: мешает роботам рендерить страницу
Блокировка всего сайта: Disallow: / — часто остаётся от staging
Защита контента: robots.txt публичен, не средство безопасности
Блокировка sitemap.xml: не блокируйте путь к карте сайта
Путаница со слешами: /admin совпадает с /admin-panel. Для директорий используйте /admin/

Лучшие практики

robots.txt в корне домена
Всегда указывайте Sitemap
Тестируйте изменения перед деплоем
Для скрытия данных используйте аутентификацию, а не robots.txt
Мониторьте ошибки краулинга после изменений
Пересматривайте robots.txt ежеквартально

Заключение

robots.txt маленький, но мощный. Правильная настройка помогает поисковикам эффективно сканировать сайт. Тестируйте изменения и помните: robots.txt управляет краулингом, а не индексацией.

Проверьте ваш сайт прямо сейчас

Проверить →

Полное руководство по robots.txt для SEO и управления краулингом

Как работает robots.txt

Базовый синтаксис

Основные директивы

Шаблоны URL

Типичные паттерны

Блокировка результатов поиска

Блокировка URL-параметров

Блокировка dev/staging

robots.txt vs meta robots vs X-Robots-Tag

Тестирование

Типичные ошибки

Лучшие практики

Заключение

Начните мониторинг бесплатно