Коротко. AI-краулеры (GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot, Google-Extended, CCBot) уважают robots.txt так же, как поисковые боты. Через User-agent и директивы Allow/Disallow вы решаете, какие боты могут читать ваш контент для обучения и AI-ответов, а каким — запретить. Решение зависит от стратегии: открытость ради цитируемости или защита контента.
Что такое AI-боты и зачем им ваш сайт
AI-краулеры собирают контент для двух целей: обучение моделей и формирование ответов в реальном времени (RAG, AI-поиск). Открытый доступ повышает шанс, что ваш бренд процитируют в ChatGPT, Claude или Perplexity. Закрытый — защищает уникальный контент от использования без ссылки.
robots.txt — это договорённость, а не технический барьер. Добросовестные боты (GPTBot, ClaudeBot) его соблюдают. Для жёсткой блокировки нужны серверные правила или WAF.
Таблица: основные AI-краулеры
| User-agent | Кто | Назначение |
|---|---|---|
| GPTBot | OpenAI | Обучение моделей GPT |
| OAI-SearchBot | OpenAI | Индексация для ChatGPT Search |
| ClaudeBot | Anthropic | Обучение и индексация Claude |
| PerplexityBot | Perplexity | AI-поиск и ответы |
| Google-Extended | Обучение Gemini (не влияет на поиск) | |
| CCBot | Common Crawl | Открытый датасет для моделей |
Пример: открыть всё AI-ботам
Если стратегия — максимальная цитируемость, разрешите краулерам доступ ко всему публичному контенту:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
Sitemap: https://enterno.io/sitemap.xml
Не забудьте указать Sitemap: — он помогает ботам найти все страницы.
Пример: запретить обучение, но разрешить поиск
Частая стратегия: закрыть обучающие краулеры, но оставить открытыми боты живого AI-поиска (чтобы вас цитировали).
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap: https://enterno.io/sitemap.xml
Здесь GPTBot и Google-Extended (обучение) заблокированы, а OAI-SearchBot и PerplexityBot (живой поиск) — разрешены.
Директива Content-Signal
Новая инициатива IETF — заголовок и директива Content-Signal, которая декларирует разрешённые виды использования контента: поиск, AI-обучение, AI-ввод. Это более тонкий инструмент, чем простое Disallow.
User-agent: *
Content-Signal: search=yes, ai-train=no, ai-input=yes
Allow: /
В примере поиск разрешён, обучение моделей — нет, а использование как контекста для AI-ответа (ai-input) — да. Поддержка директивы зависит от бота.
Не блокируйте полезные пути по ошибке. Закрытие /API документацию/ или /assets/ от AI-ботов не нужно, а вот случайный Disallow: / в общем блоке User-agent: * перекроет вообще всех.
Что закрывать всегда
- Приватные разделы:
/admin/,/dashboard/, страницы логина. - Служебные пути: внутренние API, корзина, поиск с параметрами.
- Дубли: страницы с UTM-метками и сессионными параметрами.
Эти правила одинаковы для поисковых и AI-ботов. Базовые принципы robots.txt разбираем в гайде по robots.txt.
Как проверить и усилить
После правки robots.txt проверьте синтаксис и убедитесь, что нужные боты не заблокированы случайно. Дополните файл картой контента — см. гайд по llms.txt — и корректным sitemap.xml. Готовность сайта к AI-краулерам комплексно оценит бесплатный инструмент.
Частые вопросы
Соблюдают ли AI-боты robots.txt?
Крупные добросовестные краулеры (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot) — да. Для гарантированной блокировки недобросовестных нужны серверные правила.
Заблокирует ли Google-Extended мой обычный поиск?
Нет. Google-Extended управляет только использованием для Gemini и не влияет на индексацию в Google Search — это отдельный Googlebot.
Стоит ли блокировать всех AI-ботов?
Зависит от целей. Блокировка защищает контент, но лишает вас цитирований в AI-ответах, а это растущий канал трафика и узнаваемости.
Что делать с CCBot?
CCBot собирает Common Crawl — открытый датасет, на котором обучаются многие модели. Разрешать или нет — зависит от вашей политики по обучающим данным.
Работает ли Content-Signal сейчас?
Это развивающаяся инициатива; поддержка зависит от бота. Размещать директиву безопасно — боты без поддержки её просто игнорируют.