Проверьте синтаксис robots.txt, правила обхода и доступность карт сайта
Файл robots.txt указывает поисковым роботам, какие URL они могут сканировать на вашем сайте. Правильно настроенный robots.txt помогает поисковым системам обнаруживать и индексировать важный контент, при этом защищая приватные разделы от сканирования.
Инструмент анализирует файл robots.txt вашего сайта, который управляет доступом поисковых роботов к страницам. Проверяются правила для всех user-agent, директивы Allow/Disallow, Crawl-delay, ссылки на Sitemap. Некорректный robots.txt может привести к деиндексации важных страниц или открытию служебных разделов.
Частые ошибки в robots.txt: блокировка CSS/JS файлов (ломает рендеринг для Google), отсутствие директивы Sitemap, Allow/Disallow без начального слеша и конфликтующие правила для одного пути. Наш валидатор находит эти проблемы и показывает, какие URL заблокированы для каждого User-Agent.
Всегда тестируйте изменения robots.txt перед деплоем — одна опечатка может деиндексировать весь сайт. После валидации проверьте битые ссылки, чтобы заблокированные страницы не ссылались из активного контента. Проверьте заголовки безопасности для защиты чувствительных путей.
robots.txt — текстовый файл в корне сайта, указывающий поисковым роботам, какие страницы можно или нельзя индексировать. Это рекомендация, а не принудительная блокировка — недобросовестные боты могут его игнорировать.
robots.txt блокирует краулинг (робот не зайдёт на страницу). Meta robots (noindex) блокирует индексацию (робот зайдёт, но не добавит в индекс). Для полной блокировки нужны оба. Если robots.txt блокирует страницу, робот не увидит meta noindex.
Добавьте строку Sitemap: https://example.com/sitemap.xml в конец файла. URL должен быть абсолютным. Можно указать несколько sitemap. Это помогает роботам быстрее найти карту сайта.
Crawl-delay — директива robots.txt, задающая паузу между запросами робота в секундах. Yandex и Bing поддерживают её. Google игнорирует Crawl-delay — скорость краулинга Google настраивается в Search Console.
Типичные ошибки: блокировка CSS/JS файлов (мешает рендерингу), Disallow: / (блокирует весь сайт), отсутствие файла (робот считает всё разрешённым), блокировка /api/ без Allow для /api/docs, неправильный регистр User-agent.
Наш инструмент анализирует синтаксис, проверяет доступность файла, находит конфликтующие правила и предупреждает о потенциальных проблемах. Также можно использовать Google Search Console для проверки конкретных URL.