Открытые и закрытые от индексации страницы: ошибки в robots.txt

Disallow в robots.txt блокирует краулинг, но не гарантирует исключения из индекса. Noindex запрещает индексацию, но не останавливает краулер. Путаница между этими двумя механизмами — одна из самых частых причин потери позиций.

Содержание

Краулинг и индексация — два разных процесса
robots.txt: синтаксис Disallow, Allow и директивы
Тег noindex и meta robots: где и как ставить
Disallow против noindex — почему не взаимозаменяемы
Топ-7 ошибок индексации, которые мы видим у клиентов
Проверка через Google Search Console: URL Inspection
Частые вопросы

Краулинг и индексация — два разных процесса

Большинство владельцев сайтов используют слова «краулинг» и «индексация» как синонимы. На самом деле это два последовательных, но принципиально разных шага, и ошибки возникают именно из-за смешения этих понятий.

Краулинг — это когда Googlebot (или другой поисковый бот) загружает HTML-код страницы. На этом шаге бот читает ссылки, CSS, JavaScript и robots.txt. Robots.txt управляет именно краулингом: директива Disallow говорит боту «не загружай этот URL».

Индексация — следующий шаг: анализ загруженного контента и добавление страницы в поисковый индекс. Тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag: noindex управляют именно этим шагом. Если страница закрыта через Disallow — бот её не загрузит, а значит, и не прочитает noindex.

Два независимых барьера: robots.txt останавливает краулинг, noindex останавливает индексацию — но только если краулер добрался до страницы

Разберём практическое следствие этого разделения. Есть три возможных состояния страницы:

Открытая для краулинга и открытая для индексации — обычная страница, которую Google читает и добавляет в результаты поиска.
Открытая для краулинга, но закрытая для индексации (noindex) — Google заходит на страницу, читает тег noindex и не добавляет её в выдачу. Краулинговый бюджет расходуется.
Закрытая для краулинга через Disallow — Google не загружает страницу вообще. Но если на неё есть внешние ссылки или она есть в Sitemap, URL может попасть в индекс без контента — «пустая» индексация.

Четвёртое состояние — «закрытая через Disallow и noindex одновременно» — технически возможно, но противоречиво. Google не сможет прочитать noindex, если Disallow заблокирует краулинг. Именно здесь и возникают ошибки, которые мы рассмотрим ниже.

В нашей практике самая частая ошибка — это Disallow на /ua/ или /ru/ целых языковых секций. Клиент думает, что «закрыл технические страницы», а на самом деле заблокировал весь украиноязычный или русскоязычный контент от индексации.

robots.txt: синтаксис Disallow, Allow и директивы

Файл robots.txt — это текстовый файл в корне сайта по адресу https://site.ua/robots.txt. Он читается краулерами перед началом обхода. Вот основной синтаксис, с которым приходится работать каждый день.

Основные директивы:

User-agent: * — правило применяется ко всем ботам. Можно указать конкретного бота: User-agent: Googlebot.
Disallow: /path/ — запретить обход указанного пути и всего, что расположено глубже.
Allow: /path/ — разрешить обход конкретного пути, даже если родительская папка заблокирована через Disallow.
Sitemap: https://site.ua/sitemap.xml — указать расположение sitemap. Не влияет на краулинг, но помогает Google найти все URL.
Crawl-delay: 5 — задержка между запросами в секундах. Google официально не поддерживает эту директиву; для управления частотой обхода используйте GSC.

Важные нюансы синтаксиса:

Запись	Что блокирует	Что остаётся открытым
`Disallow: /admin/`	/admin/ и все подпапки	/administrator/, /admin-tools/ — не блокирует!
`Disallow: /`	Весь сайт полностью	Ничего — опасная ошибка
`Disallow: /*.php$`	Все URL, заканчивающиеся на .php	/page.php?id=1 — тоже блокирует (знак $ — конец URL)
`Disallow: /*?sort=`	Все URL с параметром ?sort= в любом месте	/catalog/ без параметров
`Allow: /admin/login.html` `Disallow: /admin/`	/admin/ кроме /admin/login.html	Страница логина остаётся открытой
`Disallow:` (пустое)	Ничего — пустой Disallow означает «разрешить всё»	Весь сайт открыт

Регулярные выражения в robots.txt ограничены: поддерживается только * (любая последовательность символов) и $ (конец строки URL). Полноценный regex Google не поддерживает.

Практический совет: Всегда проверяйте robots.txt через Google Search Console (раздел Indexing — robots.txt) или через официальный тестировщик Google. Ошибка в синтаксисе может заблокировать целые разделы сайта без каких-либо предупреждений.

Мы проверяли десятки robots.txt и нашли один типичный сценарий: разработчик ставит Disallow: / во время разработки сайта, а после запуска забывает его убрать. Сайт живёт месяцами с полностью заблокированной индексацией — и никаких ошибок в GSC, потому что бот просто не заходит.

Тег noindex и meta robots: где и как ставить

Директива noindex может передаваться несколькими способами. Разберём каждый и укажем, где возникают ошибки.

1. Мета-тег в <head> страницы:

<meta name="robots" content="noindex, follow">

Наиболее распространённый способ. Тег читается после того, как Googlebot загрузит и отрендерит HTML. Если страница закрыта через Disallow — тег не читается вообще.

2. HTTP-заголовок X-Robots-Tag:

X-Robots-Tag: noindex

Передаётся в HTTP-ответе сервера. Единственный вариант для не-HTML ресурсов: PDF-файлов, изображений, документов Word. Если нужно убрать из индекса PDF-каталог — только через X-Robots-Tag или через robots.txt (Disallow для PDF-директории).

3. Комбинации директив в content:

Директива	Значение	Когда использовать
`noindex, follow`	Не индексировать, но переходить по ссылкам	Страницы пагинации, технические страницы с полезными ссылками
`noindex, nofollow`	Не индексировать и не переходить по ссылкам	Страницы авторизации, корзина, страницы подтверждения заказа
`index, follow`	Стандартное поведение (по умолчанию)	Почти никогда не нужно указывать явно
`nosnippet`	Не показывать сниппет в результатах	Страницы с конфиденциальным текстом
`noimageindex`	Не индексировать изображения на странице	Страницы с лицензированными фотографиями

Частая ошибка с CMS: WordPress по умолчанию ставит noindex на всех страницах, когда сайт в режиме «Обслуживание» или когда в настройках чтения выбрано «Запретить поисковым системам индексировать сайт». После запуска это настройку забывают отключить — и сайт годами живёт с noindex на всех страницах.

Disallow и noindex решают разные задачи — и ни одна не заменяет другую полностью

Disallow против noindex — почему не взаимозаменяемы

Это концептуальная ошибка, которая стоит позиций. Разберём конкретно, что происходит в каждом из неправильных сценариев.

Сценарий 1: Только Disallow, без noindex

Googlebot не загружает страницу. Но если на страницу есть хотя бы одна внешняя ссылка или она есть в Sitemap — Google знает о существовании URL. Поисковик может добавить URL в индекс без контента: строка в выдаче появляется, но без сниппета. Классический пример — страницы /cart/, /checkout/, /thank-you/, которые попадают в выдачу потому, что какой-то сайт или скрапер поставил ссылку.

Сценарий 2: Только noindex, без Disallow

Googlebot регулярно заходит на страницу, считывает noindex и не добавляет в индекс. Технически правильно — но краулинговый бюджет расходуется на страницы без SEO-ценности. Для небольших сайтов (до 1000 страниц) это несущественно. Для крупных интернет-магазинов с сотнями тысяч технических URL — критическая потеря бюджета.

Сценарий 3: Disallow + noindex одновременно

Худший вариант. Страница закрыта от краулинга — Googlebot не загружает HTML. Тег noindex в HTML не читается. Результат: Google может либо вообще не знать о странице, либо знать URL (через ссылки), но не знать о директиве noindex. Если кто-то ссылается на этот URL — он может попасть в индекс без контента.

Правильная комбинация зависит от цели:

Хотите сэкономить краулинговый бюджет и не нужна выдача → Disallow + убедитесь, что нет внешних ссылок.
Хотите гарантированно исключить из выдачи → noindex (без Disallow), открыть для краулинга.
Технические страницы без внешних ссылок, бюджет важен → Disallow достаточно.
Страницы с возможными внешними ссылками → только noindex, без Disallow.

Ключевой принцип: если страница должна быть гарантированно исключена из поисковой выдачи — единственный надёжный способ это noindex при открытом краулинге. Disallow — это про краулинговый бюджет, а не про выдачу.

Топ-7 ошибок индексации, которые мы видим у клиентов

За годы аудитов мы систематизировали ошибки, которые встречаются чаще всего. Вот семь наиболее разрушительных — с примерами и способами исправления.

Семь ошибок — от критических (Disallow на весь сайт) до скрытых (CSS в robots.txt)

Ошибка 1: Disallow: / после разработки

Разработчики закрывают весь сайт во время создания, чтобы избежать индексации незавершённого контента. После запуска эту строку забывают убрать. Сайт может жить месяцами с нулевой индексацией. GSC показывает «Excluded: Blocked by robots.txt» для всех URL.

Ошибка 2: Disallow на языковую секцию

В нашей практике самая частая ошибка — это именно Disallow на /ua/ или /ru/ целых языковых секций. Владелец думает, что «убирает лишнее», а на самом деле блокирует весь контент одной из языковых версий. Органический трафик по этому языку обнуляется через несколько недель после переобхода.

Ошибка 3: CSS и JavaScript в Disallow

Старые инструкции по «оптимизации» советовали закрывать /wp-content/plugins/ и /wp-content/themes/ через robots.txt. Это приводило к тому, что Googlebot не мог отрендерить страницу и видел только «скелет» HTML без стилей. Google может ранжировать такую страницу значительно ниже, так как без рендеринга JS-фреймворков он видит значительно меньше контента.

Ошибка 4: Один клиент из e-commerce ниши закрыл от индексации всю папку /products/ и потерял...

Реальный кейс из нашей практики. Интернет-магазин бытовой техники имел более 3000 товарных страниц. Новый разработчик «почистил» robots.txt и добавил Disallow: /products/, считая это служебной папкой. За 6 недель органический трафик упал на 78%. GSC показал, что все товарные страницы имеют статус «Excluded: Blocked by robots.txt». Восстановление после исправления заняло ещё 3 месяца.

Ошибка 5: Noindex на пагинацию при сохранении ссылок

Страницы /catalog/?page=2, /catalog/?page=3 закрываются через noindex, чтобы «не дублировать контент». При этом вся внутренняя перелинковка и внешние ссылки из каталогов продолжают передавать вес на эти страницы — а он никуда не уходит, так как noindex блокирует передачу.

Ошибка 6: Noindex на странице с backlinks

Если старая страница получила внешние ссылки, а затем на неё поставили noindex (вместо 301-редиректа на актуальную версию), весь ссылочный вес просто исчезает. Правильное решение: 301-редирект на актуальную страницу.

Ошибка 7: Robots.txt без проверки после изменений в CMS

Обновление плагинов, миграция на новый хостинг, изменение структуры URL — всё это может автоматически перезаписать robots.txt. Особенно часто это происходит с Yoast SEO, Rank Math и OpenCart-плагинами. Мы проверяли десятки robots.txt и нашли один типичный сценарий: после обновления Yoast плагин «восстанавливает» robots.txt до дефолтного шаблона, убирая все кастомные правила, которые настраивал SEO-специалист.

Подробный технический SEO-аудит включает обязательную проверку robots.txt и сравнение с предыдущей версией файла через Git или архив.

Краулинговый бюджет и практика управления индексацией

Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за определённый период времени. Для сайтов до 10 000 страниц он редко становится критическим. Но для интернет-магазинов с сотнями тысяч товарных URL правильная настройка robots.txt напрямую влияет на то, как быстро новые страницы попадают в выдачу.

Google определяет краулинговый бюджет на основе двух факторов:

Crawl rate limit — максимальная частота запросов, которую Googlebot считает безопасной для вашего сервера. Можно скорректировать в GSC (Settings → Crawl rate).
Crawl demand — насколько популярным Google считает сайт. Чем больше внешних ссылок и чем выше авторитет домена, тем больше бюджета выделяется.

Как robots.txt и noindex влияют на расход бюджета:

Состояние страницы	Расход бюджета	Эффект для SEO
Открытая, проиндексированная	Да — стандартный обход	Нормально
Открытая, noindex	Да — бот заходит и читает noindex	Бюджет расходуется впустую
Disallow в robots.txt	Нет — бот не делает запрос	Экономия, но без гарантии исключения из индекса
Disallow + есть в Sitemap	Нет — но Google видит противоречие	GSC выдаст предупреждение "Blocked by robots.txt"
404 или 410	Один запрос, затем бот перестаёт посещать	Самый чистый способ убрать ненужный URL

Практическое правило для крупных сайтов: технические страницы (корзина, авторизация, личный кабинет, служебные URL CMS) лучше всего закрывать через Disallow — это гарантирует отсутствие бесполезных краулинговых запросов. Но при этом важно проверять, нет ли на эти URL внешних ссылок через Ahrefs или Google Search Console (раздел Links → External links).

Контентные страницы с noindex — например, фильтрованные страницы каталога, которые появляются в выдаче через параметры — лучше защищать через canonical на базовый URL. Это одновременно защищает от индексации дублей и не тратит лишний бюджет на обход сотен вариантов.

Один из наших клиентов — агрегатор недвижимости с ~200 000 URL — имел в robots.txt открытыми все страницы поиска с параметрами: /search?type=apartment&city=kyiv&rooms=2&price=50000 и так далее. Каждая комбинация параметров давала отдельный URL, и таких комбинаций насчитывалось более 80 000. Googlebot тратил весь бюджет на эти страницы, практически не добираясь до новых объявлений. После добавления Disallow: /search и настройки canonical на страницах результатов поиска — скорость краулинга новых объявлений выросла в четыре раза по данным GSC.

Ещё один недооценённый инструмент — XML Sitemap как приоритетная очередь. Google не гарантирует порядок краулинга на основе Sitemap, но страницы из Sitemap получают приоритет при первой индексации. Поэтому в Sitemap должны быть только страницы с открытой индексацией — никаких URL с noindex или Disallow. Присутствие закрытых URL в Sitemap — ещё одно частое противоречие, которое GSC фиксирует как предупреждение.

Проверка через Google Search Console: URL Inspection

Google Search Console — основной инструмент для проверки реального состояния индексации. Разберём, как правильно читать данные и что означают различные статусы.

Инструмент URL Inspection (проверка URL):

Введите URL в строку поиска в верхней части GSC.
GSC покажет статус: «URL is on Google» (проиндексирована) или одну из причин исключения.
Нажмите «Test live URL» — это проверит текущее состояние, а не кешированное.
На вкладке «Crawl» можно увидеть, когда Googlebot последний раз загружал страницу и есть ли перенаправления.

Наиболее важные статусы в разделе Indexing → Pages:

Статус GSC	Значение	Что делать
Indexed, not submitted in sitemap	Страница в индексе, но не в Sitemap	Добавить в Sitemap или проверить, нужна ли эта страница в индексе
Excluded by robots.txt	Заблокирована через Disallow	Проверить robots.txt — намеренная ли блокировка
Excluded: noindex tag	Есть тег noindex	Проверить, намеренно ли. Если нет — убрать noindex
Crawled, currently not indexed	Google загрузил, но не добавил в индекс	Проблемы с качеством контента, thin content, или Google считает страницу неполезной
Discovered, currently not indexed	Google знает об URL, но ещё не краулил	Проверить краулинговый бюджет, внутреннюю перелинковку
Duplicate without user-selected canonical	Google нашёл дубль и сам выбрал основную версию	Прописать canonical явно — Google мог выбрать не ту версию

URL Inspection в GSC сразу показывает причину: проиндексировано, заблокировано robots.txt или исключено через noindex

Как проверить robots.txt через GSC:

Перейдите в Settings → robots.txt в GSC.
GSC покажет текущее содержимое файла и подсветит синтаксические ошибки.
Воспользуйтесь встроенным тестировщиком: введите URL и выберите User-agent — система покажет, заблокирован URL или нет.

Регулярный мониторинг: рекомендуем настроить оповещения GSC (Settings → Email preferences) на резкий рост количества исключённых страниц. Если количество «Excluded: Blocked by robots.txt» внезапно выросло — это сигнал тревоги: скорее всего, robots.txt был перезаписан.

Полноценную проверку состояния индексации стоит проводить в рамках регулярного аудита. Подробнее о работе с инструментами — в нашем гайде по Google Search Console.

Официальную документацию Google по robots.txt и механизму краулинга можно найти в справке для вебмастеров.

Частые вопросы

Что произойдёт, если закрыть страницу через Disallow и не поставить noindex?

Googlebot не сможет прочитать страницу, но если на неё есть внешние ссылки или она есть в Sitemap, Google может добавить URL в индекс без содержимого — так называемая индексация без краулинга. Для гарантированного исключения нужен noindex, доступный для краулера.

Можно ли использовать Disallow и noindex одновременно?

Это противоречивые инструкции. Если страница закрыта через Disallow, Googlebot не прочитает тег noindex. Google рекомендует: либо разрешить краулинг и поставить noindex, либо закрыть через Disallow без noindex — но тогда URL может попасть в индекс через внешние ссылки.

Как быстро Google убирает страницу из индекса после добавления noindex?

После следующего обхода краулером — обычно от нескольких дней до 4 недель. Ускорить процесс можно через Google Search Console: инструмент URL Inspection — Request Indexing, после чего Google повторно проверит страницу и обработает директиву noindex.

Влияет ли robots.txt на ранжирование страниц, которые остаются открытыми?

Напрямую — нет. Robots.txt определяет только доступность для краулинга. Но если важные ресурсы (CSS, JS, изображения) закрыты через Disallow, Googlebot не сможет полноценно отрендерить страницу, что может снизить качество индексации и позиции.

Есть проблемы с индексацией?

Ошибка в robots.txt или случайный noindex на важных страницах — это всегда тихий ущерб: позиции падают постепенно, без громких предупреждений. Мы проверяем robots.txt, состояние индексации и краулинговый бюджет в рамках технического SEO-аудита — и даём конкретный список исправлений с приоритетами.

SEO-продвижение сайта Получить консультацию