Коротко. AI-краулеры — это боты вроде GPTBot, ClaudeBot и PerplexityBot, которые обходят страницы, извлекают текст и используют его для обучения и для ответов в реальном времени. Они хуже справляются с тяжёлым JavaScript, ценят чистый HTML, семантическую разметку и структурированные данные. Чтобы вас читали корректно, нужны доступ в robots.txt, серверный рендеринг ключевого контента и извлекаемые абзацы-ответы.
Кто такие AI-краулеры
Это автоматические агенты, которые скачивают HTML-страницы для двух целей: пополнение обучающих данных и получение свежей информации для ответов пользователю (retrieval). Поведение похоже на поисковых ботов, но приоритеты другие — им важна извлекаемость фактов, а не позиция в выдаче.
| Краулер | Кто стоит за ним | Назначение |
|---|---|---|
| GPTBot | OpenAI | Обучение и поиск в ChatGPT |
| ClaudeBot | Anthropic | Обучение и ответы Claude |
| PerplexityBot | Perplexity | Ответы с цитатами |
| Google-Extended | Контроль использования в AI Overviews / Gemini |
Что мешает AI-краулерам
- Контент только в JavaScript. Многие AI-боты не выполняют JS полноценно. Если текст подгружается клиентом, его могут не увидеть.
- Блокировка в robots.txt. Случайный запрет AI-ботов лишает вас цитирований. Управляйте этим осознанно — см. robots.txt для AI-краулеров.
- Текст внутри изображений. Картинки с текстом без alt и без HTML-дубликата для машины невидимы.
- Бесконечная пагинация и JS-навигация без обычных ссылок усложняют обход.
- Тяжёлые страницы и таймауты — краулер может оборвать загрузку.
Простое правило: если контент виден при отключённом JavaScript и доступен по обычной ссылке — его прочитает почти любой AI-краулер.
Как проверить, что видит бот
Откройте страницу с отключённым JavaScript или посмотрите исходный HTML (View Source, а не DOM-инспектор). Всё, что там есть, увидит и краулер. Также полезно проверить ответ сервера и заголовки.
curl -A "GPTBot" -s https://example.com/ | head -n 40
Эта команда запрашивает страницу с user-agent GPTBot и показывает первые строки HTML — так вы видите контент глазами бота.
Как сделать контент извлекаемым
- Серверный рендеринг (SSR/SSG) ключевого текста — главное условие.
- Семантический HTML:
<h1>–<h3>,<p>,<ul>, таблицы вместо набора<div>. - Прямые ответы в начале раздела — извлекаемые абзацы.
- Структурированные данные через Schema.org — см. structured data.
- Чистый sitemap и логичная перелинковка помогают обнаружить все страницы.
- Файл llms.txt как карта приоритетного контента — см. гайд по llms.txt.
Управление доступом без потери цитирований
Иногда нужно запретить обучение, но разрешить ответы. Базовый пример robots.txt:
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Allow: /
Здесь основные AI-боты получают доступ ко всему сайту. Подробные сценарии разрешений и запретов разобраны в общем гайде по robots.txt.
Частые вопросы
AI-краулеры выполняют JavaScript?
Частично и непредсказуемо. Не рассчитывайте на это — выводите ключевой контент в HTML на сервере.
Нужно ли блокировать AI-ботов?
Зависит от целей. Блокировка защищает от использования в обучении, но и лишает цитирований в ответах. Решайте осознанно для каждого бота.
Влияет ли скорость загрузки?
Да. Медленные страницы повышают риск таймаута. Базовая оптимизация скорости полезна и для AI-ботов, и для пользователей.
Как узнать, заходил ли GPTBot?
Проверьте логи сервера по user-agent (GPTBot, ClaudeBot, PerplexityBot) — это покажет реальную активность краулеров.