Skip to content
← Все статьи

Полное руководство по robots.txt для SEO и управления краулингом

Файл robots.txt — простой текстовый файл в корне сайта, указывающий поисковым роботам, какие страницы они могут и не могут сканировать. Несмотря на простоту, ошибки в конфигурации приводят к серьёзным SEO-проблемам — случайная блокировка всего сайта от индексации встречается чаще, чем кажется.

Как работает robots.txt

Поисковый робот при посещении сайта сначала проверяет https://example.com/robots.txt. Файл содержит директивы, указывающие разрешённые и запрещённые пути для каждого робота (user-agent). Роботы следуют правилам добровольно — robots.txt это протокол, а не средство безопасности.

Базовый синтаксис

# Разрешить всё для всех роботов
User-agent: *
Allow: /

# Запретить /admin/ для всех
User-agent: *
Disallow: /admin/

# Запретить Googlebot доступ к директории
User-agent: Googlebot
Disallow: /private/

# Расположение карты сайта
Sitemap: https://example.com/sitemap.xml

Основные директивы

  • User-agent: указывает, к какому роботу применяются правила. * — все роботы.
  • Disallow: блокирует сканирование указанных путей. Disallow: / блокирует всё.
  • Allow: явно разрешает сканирование. Полезно для переопределения Disallow.
  • Sitemap: указывает на XML-карту сайта. Можно указать несколько.
  • Crawl-delay: задержка между запросами (секунды). Учитывается Bing и Yandex, игнорируется Google.

Шаблоны URL

  • * — любая последовательность символов: Disallow: /*.pdf$ блокирует все PDF
  • $ — конец URL: Disallow: /page$ блокирует /page, но не /page/sub
  • Пути чувствительны к регистру

Типичные паттерны

Блокировка результатов поиска

User-agent: *
Disallow: /search
Disallow: /*?q=
Disallow: /*?s=

Блокировка URL-параметров

User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=

Блокировка dev/staging

User-agent: *
Disallow: /staging/
Disallow: /dev/
Disallow: /test/

robots.txt vs meta robots vs X-Robots-Tag

МетодОбластьБлокирует краулингБлокирует индексацию
robots.txtПути/директорииДаНет (косвенно)
meta robotsОтдельные страницыНетДа (noindex)
X-Robots-TagЛюбой URL (заголовок)НетДа (noindex)

Важно: robots.txt предотвращает краулинг, а не индексацию. Если на запрещённую страницу есть внешние ссылки, поисковики могут проиндексировать URL (без контента). Для блокировки индексации используйте noindex.

Тестирование

  • Google Search Console: инструмент тестирования robots.txt
  • Яндекс.Вебмастер: анализ robots.txt
  • Bing Webmaster Tools: аналогичная функциональность
  • Браузер: просто откройте https://yoursite.com/robots.txt

Типичные ошибки

  • Блокировка CSS/JS: мешает роботам рендерить страницу
  • Блокировка всего сайта: Disallow: / — часто остаётся от staging
  • Защита контента: robots.txt публичен, не средство безопасности
  • Блокировка sitemap.xml: не блокируйте путь к карте сайта
  • Путаница со слешами: /admin совпадает с /admin-panel. Для директорий используйте /admin/

Лучшие практики

  • robots.txt в корне домена
  • Всегда указывайте Sitemap
  • Тестируйте изменения перед деплоем
  • Для скрытия данных используйте аутентификацию, а не robots.txt
  • Мониторьте ошибки краулинга после изменений
  • Пересматривайте robots.txt ежеквартально

Заключение

robots.txt маленький, но мощный. Правильная настройка помогает поисковикам эффективно сканировать сайт. Тестируйте изменения и помните: robots.txt управляет краулингом, а не индексацией.

Проверьте ваш сайт прямо сейчас

Проверить свой сайт →
Другие статьи: SEO
SEO
Agent-карточки и .well-known для AI-агентов
15.06.2026 · 22 просм.
SEO
Markdown content-negotiation для AI-агентов
15.06.2026 · 30 просм.
SEO
Как попасть в ответы ChatGPT и Perplexity
15.06.2026 · 35 просм.
SEO
Руководство по XML Sitemap: создание, структура и лучшие практики
16.03.2026 · 198 просм.