Проверьте синтаксис robots.txt, правила обхода и доступность карт сайта
Проверка robots.txt — парсер читает файл, показывает, какие User-agent разрешены/запрещены, выделяет типичные ошибки (неправильный синтаксис, блокировка важных путей, CSS/JS в Disallow). Проверяет правильность sitemap-ссылок и Clean-param директивы для Яндекса.
Инструмент анализирует файл robots.txt вашего сайта, который управляет доступом поисковых роботов к страницам. Проверяются правила для всех user-agent, директивы Allow/Disallow, Crawl-delay, ссылки на Sitemap. Некорректный robots.txt может привести к деиндексации важных страниц или открытию служебных разделов.
Частые ошибки в robots.txt: блокировка CSS/JS файлов (ломает рендеринг для Google), отсутствие директивы Sitemap, Allow/Disallow без начального слеша и конфликтующие правила для одного пути. Наш валидатор находит эти проблемы и показывает, какие URL заблокированы для каждого User-Agent.
Всегда тестируйте изменения robots.txt перед деплоем — одна опечатка может деиндексировать весь сайт. После валидации проверьте битые ссылки, чтобы заблокированные страницы не ссылались из активного контента. Проверьте заголовки безопасности для защиты чувствительных путей.
robots.txt управляет тем, какие страницы видят поисковые боты. Неправильные директивы могут случайно закрыть весь сайт от индексации или, наоборот, открыть административные разделы.
Парсим robots.txt по RFC 9309: все User-agent, Allow/Disallow, Crawl-delay, Sitemap.
Введите конкретный URL и User-agent — узнаете, разрешён ли он для этого бота.
Автоматически показываем статус для GPTBot, ClaudeBot, PerplexityBot, Googlebot.
Все Sitemap: директивы в одном месте с быстрыми ссылками для проверки.
аудит краулинг-директив
проверка после деплоя
контроль индексации
защита от нежелательных краулеров
User-agent: * распространяется на всех ботов, включая AI-краулеров.Sitemap: https://example.com/sitemap.xml помогает ботам найти все страницы.История проверок robots.txt и мониторинг его изменений на вашем сайте.
Зарегистрироваться (FREE)robots.txt — текстовый файл в корне сайта, указывающий поисковым роботам, какие страницы можно или нельзя индексировать. Это рекомендация, а не принудительная блокировка — недобросовестные боты могут его игнорировать.
robots.txt блокирует краулинг (робот не зайдёт на страницу). Meta robots (noindex) блокирует индексацию (робот зайдёт, но не добавит в индекс). Для полной блокировки нужны оба. Если robots.txt блокирует страницу, робот не увидит meta noindex.
Добавьте строку Sitemap: https://example.com/sitemap.xml в конец файла. URL должен быть абсолютным. Можно указать несколько sitemap. Это помогает роботам быстрее найти карту сайта.
Crawl-delay — директива robots.txt, задающая паузу между запросами робота в секундах. Yandex и Bing поддерживают её. Google игнорирует Crawl-delay — скорость краулинга Google настраивается в Search Console.
Типичные ошибки: блокировка CSS/JS файлов (мешает рендерингу), Disallow: / (блокирует весь сайт), отсутствие файла (робот считает всё разрешённым), блокировка /api/ без Allow для /api/docs, неправильный регистр User-agent.
Наш инструмент анализирует синтаксис, проверяет доступность файла, находит конфликтующие правила и предупреждает о потенциальных проблемах. Также можно использовать Google Search Console для проверки конкретных URL.
Развёрнутые материалы по теме из базы знаний.
Настройте continuous monitoring и получайте алерт, когда что-то сломается. Не нужно помнить запускать вручную.