robots.txt и AI-боты: GPTBot, ClaudeBot, Google-Extended

Anatoly Oshmanovsky

SEO

robots.txt и AI-боты: GPTBot, ClaudeBot, Google-Extended

Опубликовано: 15.06.2026 · ~3 мин · 48 просмотров

Коротко. AI-краулеры (GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot, Google-Extended, CCBot) уважают robots.txt так же, как поисковые боты. Через User-agent и директивы Allow/Disallow вы решаете, какие боты могут читать ваш контент для обучения и AI-ответов, а каким — запретить. Решение зависит от стратегии: открытость ради цитируемости или защита контента.

Что такое AI-боты и зачем им ваш сайт

AI-краулеры собирают контент для двух целей: обучение моделей и формирование ответов в реальном времени (RAG, AI-поиск). Открытый доступ повышает шанс, что ваш бренд процитируют в ChatGPT, Claude или Perplexity. Закрытый — защищает уникальный контент от использования без ссылки.

robots.txt — это договорённость, а не технический барьер. Добросовестные боты (GPTBot, ClaudeBot) его соблюдают. Для жёсткой блокировки нужны серверные правила или WAF.

Таблица: основные AI-краулеры

User-agent	Кто	Назначение
GPTBot	OpenAI	Обучение моделей GPT
OAI-SearchBot	OpenAI	Индексация для ChatGPT Search
ClaudeBot	Anthropic	Обучение и индексация Claude
PerplexityBot	Perplexity	AI-поиск и ответы
Google-Extended	Google	Обучение Gemini (не влияет на поиск)
CCBot	Common Crawl	Открытый датасет для моделей

Пример: открыть всё AI-ботам

Если стратегия — максимальная цитируемость, разрешите краулерам доступ ко всему публичному контенту:

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://enterno.io/sitemap.xml

Не забудьте указать Sitemap: — он помогает ботам найти все страницы.

Пример: запретить обучение, но разрешить поиск

Частая стратегия: закрыть обучающие краулеры, но оставить открытыми боты живого AI-поиска (чтобы вас цитировали).

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://enterno.io/sitemap.xml

Здесь GPTBot и Google-Extended (обучение) заблокированы, а OAI-SearchBot и PerplexityBot (живой поиск) — разрешены.

Директива Content-Signal

Новая инициатива IETF — заголовок и директива Content-Signal, которая декларирует разрешённые виды использования контента: поиск, AI-обучение, AI-ввод. Это более тонкий инструмент, чем простое Disallow.

User-agent: *
Content-Signal: search=yes, ai-train=no, ai-input=yes
Allow: /

В примере поиск разрешён, обучение моделей — нет, а использование как контекста для AI-ответа (ai-input) — да. Поддержка директивы зависит от бота.

Не блокируйте полезные пути по ошибке. Закрытие /API документацию/ или /assets/ от AI-ботов не нужно, а вот случайный Disallow: / в общем блоке User-agent: * перекроет вообще всех.

Что закрывать всегда

Приватные разделы: /admin/, /dashboard/, страницы логина.
Служебные пути: внутренние API, корзина, поиск с параметрами.
Дубли: страницы с UTM-метками и сессионными параметрами.

Эти правила одинаковы для поисковых и AI-ботов. Базовые принципы robots.txt разбираем в гайде по robots.txt.

Как проверить и усилить

После правки robots.txt проверьте синтаксис и убедитесь, что нужные боты не заблокированы случайно. Дополните файл картой контента — см. гайд по llms.txt — и корректным sitemap.xml. Готовность сайта к AI-краулерам комплексно оценит бесплатный инструмент.

Частые вопросы

Соблюдают ли AI-боты robots.txt?

Крупные добросовестные краулеры (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot) — да. Для гарантированной блокировки недобросовестных нужны серверные правила.

Заблокирует ли Google-Extended мой обычный поиск?

Нет. Google-Extended управляет только использованием для Gemini и не влияет на индексацию в Google Search — это отдельный Googlebot.

Стоит ли блокировать всех AI-ботов?

Зависит от целей. Блокировка защищает контент, но лишает вас цитирований в AI-ответах, а это растущий канал трафика и узнаваемости.

Что делать с CCBot?

CCBot собирает Common Crawl — открытый датасет, на котором обучаются многие модели. Разрешать или нет — зависит от вашей политики по обучающим данным.

Работает ли Content-Signal сейчас?

Это развивающаяся инициатива; поддержка зависит от бота. Размещать директиву безопасно — боты без поддержки её просто игнорируют.

Проверить AI-готовность сайта →

Проверьте ваш сайт прямо сейчас

Проверить свой сайт →

robots.txt и AI-боты: GPTBot, ClaudeBot, Google-Extended

Что такое AI-боты и зачем им ваш сайт

Таблица: основные AI-краулеры

Пример: открыть всё AI-ботам

Пример: запретить обучение, но разрешить поиск

Директива Content-Signal

Что закрывать всегда

Как проверить и усилить

Частые вопросы

Соблюдают ли AI-боты robots.txt?

Заблокирует ли Google-Extended мой обычный поиск?

Стоит ли блокировать всех AI-ботов?

Что делать с CCBot?

Работает ли Content-Signal сейчас?

Начните мониторинг бесплатно