Skip to content

Что такое robots.txt

Коротко:

robots.txt — текстовый файл в корне домена (/robots.txt), который указывает поисковым ботам какие URL обходить, а какие нет. Формат Robots Exclusion Protocol (REP, 2022 формализован в RFC 9309). Важно: robots.txt — это **рекомендация**, не принудительный блок. Злонамеренные боты его игнорируют. Для реального запрета используйте auth/firewall.

Ниже: подробности, пример, смежные термины, FAQ.

Подробности

  • User-agent: * — правила применяются ко всем ботам
  • Disallow: /admin/ — запретить путь
  • Allow: /admin/public/ — явное разрешение в запрещённой директории
  • Sitemap: https://example.com/sitemap.xml — указатель на sitemap
  • Crawl-delay: 5 — не чаще 1 запроса в 5 секунд (Google игнорирует, Yandex/Bing читают)

Пример

User-agent: *
Disallow: /admin/
Disallow: /*.pdf$
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml

Смежные термины

Больше по теме

Часто задаваемые вопросы

Что если robots.txt недоступен?

Google продолжает crawl как обычно, Yandex — тоже. Но если robots.txt вернул 5xx — Google останавливает crawl на 12 часов. Держите 200 или 404.

Robots.txt скрывает страницу от индексации?

Нет. Disallow запрещает **обход**, но не попадание в индекс (через внешние ссылки страница может быть indexed без контента). Для индексации — используйте meta noindex.

Wildcard работают?

В основных ботах да: <code>Disallow: /*.pdf$</code>. Стандарт (RFC 9309) формализует wildcard.