Skip to content

sitemap.xml: определение и применение

Коротко:

sitemap.xml — XML-файл со списком всех канонических URL сайта для поисковиков. Содержит loc, lastmod, changefreq, priority. Лимит: 50 000 URL / 50 MB на файл. Для больших сайтов — sitemap-index с ссылками на partitioned sitemaps.

Что такое sitemap.xml

sitemap.xml — XML-файл со списком всех канонических URL сайта для поисковиков. Содержит loc, lastmod, changefreq, priority. Лимит: 50 000 URL / 50 MB на файл. Для больших сайтов — sitemap-index с ссылками на partitioned sitemaps.

robots.txt парсингПолный разбор директив Allow/Disallow
URL тестРазрешён ли конкретный URL для бота
Sitemap-ссылкиВсе Sitemap: директивы в файле
AI-краулерыGPTBot, ClaudeBot и другие AI-боты

Почему нам доверяют

Live
проверка robots.txt
UA
любой User-Agent
Sitemap
ссылки на sitemap
Free
без регистрации

Как это работает

1

Введите URL сайта

2

Парсим robots.txt

3

Проверьте правила краулинга

Зачем проверять robots.txt?

robots.txt управляет тем, какие страницы видят поисковые боты. Неправильные директивы могут случайно закрыть весь сайт от индексации или, наоборот, открыть административные разделы.

Полный парсинг

Парсим robots.txt по RFC 9309: все User-agent, Allow/Disallow, Crawl-delay, Sitemap.

URL-тестер

Введите конкретный URL и User-agent — узнаете, разрешён ли он для этого бота.

AI-краулеры

Автоматически показываем статус для GPTBot, ClaudeBot, PerplexityBot, Googlebot.

Sitemap-список

Все Sitemap: директивы в одном месте с быстрыми ссылками для проверки.

Кому это нужно

SEO-специалисты

аудит краулинг-директив

Разработчики

проверка после деплоя

Маркетологи

контроль индексации

Владельцы сайтов

защита от нежелательных краулеров

Частые ошибки

Disallow: / для всего сайтаЭто закрывает весь сайт от индексации. Проверяйте robots.txt после каждого изменения.
Блокировать AI без пониманияБлокировка GPTBot лишает ваш сайт цитирований в ChatGPT и Perplexity.
Не указывать SitemapБез Sitemap: директивы боты должны угадывать URL ситемапа. Всегда указывайте явно.
Конфликтующие правилаAllow и Disallow на одни URL у разных User-agent создают непредсказуемое поведение.

Лучшие практики

Тестируйте после каждого измененияОдин неверный символ в robots.txt может закрыть весь раздел от индексации.
Используйте * осторожноUser-agent: * распространяется на всех ботов, включая AI-краулеров.
Всегда указывайте SitemapSitemap: https://example.com/sitemap.xml помогает ботам найти все страницы.
Проверяйте с помощью Google Search ConsoleGSC показывает, как Google видит ваш robots.txt, включая ошибки парсинга.

Получите больше с бесплатным аккаунтом

История проверок robots.txt и мониторинг его изменений на вашем сайте.

Зарегистрироваться (FREE)

Больше по теме

Часто задаваемые вопросы

Нужно ли мне sitemap.xml?

Если работаете с веб-инфраструктурой — да. Смотрите описание выше.