robots.txt — что это и как работает

Anatoly Oshmanovsky

Что такое robots.txt

Автор: Anatoly Oshmanovsky · Обновлено 17 апреля 2026

Коротко:

robots.txt — текстовый файл в корне домена (/robots.txt), который указывает поисковым ботам какие URL обходить, а какие нет. Формат Robots Exclusion Protocol (REP, 2022 формализован в RFC 9309). Важно: robots.txt — это **рекомендация**, не принудительный блок. Злонамеренные боты его игнорируют. Для реального запрета используйте auth/firewall.

Ниже: подробности, пример, смежные термины, FAQ.

Попробовать бесплатно →

Подробности

User-agent: * — правила применяются ко всем ботам
Disallow: /admin/ — запретить путь
Allow: /admin/public/ — явное разрешение в запрещённой директории
Sitemap: https://example.com/sitemap.xml — указатель на sitemap
Crawl-delay: 5 — не чаще 1 запроса в 5 секунд (Google игнорирует, Yandex/Bing читают)

Пример

User-agent: *
Disallow: /admin/
Disallow: /*.pdf$
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml

Смежные термины

Больше по теме

Гайды

Глоссарий

Исследования

Часто задаваемые вопросы

Что если robots.txt недоступен?

Google продолжает crawl как обычно, Yandex — тоже. Но если robots.txt вернул 5xx — Google останавливает crawl на 12 часов. Держите 200 или 404.

Robots.txt скрывает страницу от индексации?

Нет. Disallow запрещает **обход**, но не попадание в индекс (через внешние ссылки страница может быть indexed без контента). Для индексации — используйте meta noindex.

Wildcard работают?

В основных ботах да: <code>Disallow: /*.pdf$</code>. Стандарт (RFC 9309) формализует wildcard.

Запустить инструмент, который описан в этой статье

Бесплатный тариф — 20 мониторов, проверки раз в 5 минут, без карты. Платные тарифы — интервал от 1 минуты и проверки из нескольких регионов.

Начать бесплатно Тарифы