robots.txt — текстовый файл в корне домена (/robots.txt), который указывает поисковым ботам какие URL обходить, а какие нет. Формат Robots Exclusion Protocol (REP, 2022 формализован в RFC 9309). Важно: robots.txt — это **рекомендация**, не принудительный блок. Злонамеренные боты его игнорируют. Для реального запрета используйте auth/firewall.
Ниже: подробности, пример, смежные термины, FAQ.
User-agent: *
Disallow: /admin/
Disallow: /*.pdf$
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xmlGoogle продолжает crawl как обычно, Yandex — тоже. Но если robots.txt вернул 5xx — Google останавливает crawl на 12 часов. Держите 200 или 404.
Нет. Disallow запрещает **обход**, но не попадание в индекс (через внешние ссылки страница может быть indexed без контента). Для индексации — используйте meta noindex.
В основных ботах да: <code>Disallow: /*.pdf$</code>. Стандарт (RFC 9309) формализует wildcard.