Открытые и закрытые от индексации страницы: ошибки в robots.txt

Дата публикации: 17.06.2026 08:03

Disallow в robots.txt блокирует краулинг, но не гарантирует исключения из индекса. Noindex запрещает индексацию, но не останавливает краулер. Путаница между этими двумя механизмами — одна из самых частых причин потери позиций.


Краулинг и индексация — два разных процесса

Большинство владельцев сайтов используют слова «краулинг» и «индексация» как синонимы. На самом деле это два последовательных, но принципиально разных шага, и ошибки возникают именно из-за смешения этих понятий.

Краулинг — это когда Googlebot (или другой поисковый бот) загружает HTML-код страницы. На этом шаге бот читает ссылки, CSS, JavaScript и robots.txt. Robots.txt управляет именно краулингом: директива Disallow говорит боту «не загружай этот URL».

Индексация — следующий шаг: анализ загруженного контента и добавление страницы в поисковый индекс. Тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag: noindex управляют именно этим шагом. Если страница закрыта через Disallow — бот её не загрузит, а значит, и не прочитает noindex.

Процесс краулинга и индексации страниц Googlebot Путь страницы от сервера до индекса Google Googlebot запрос URL robots.txt Disallow? Краулинг заблокирован noindex не читается Да Нет Рендеринг HTML + JS noindex? meta robots / HTTP Не индексируется краулинг продолжается Да Нет Индекс Google
Два независимых барьера: robots.txt останавливает краулинг, noindex останавливает индексацию — но только если краулер добрался до страницы

Разберём практическое следствие этого разделения. Есть три возможных состояния страницы:

  • Открытая для краулинга и открытая для индексации — обычная страница, которую Google читает и добавляет в результаты поиска.
  • Открытая для краулинга, но закрытая для индексации (noindex) — Google заходит на страницу, читает тег noindex и не добавляет её в выдачу. Краулинговый бюджет расходуется.
  • Закрытая для краулинга через Disallow — Google не загружает страницу вообще. Но если на неё есть внешние ссылки или она есть в Sitemap, URL может попасть в индекс без контента — «пустая» индексация.

Четвёртое состояние — «закрытая через Disallow и noindex одновременно» — технически возможно, но противоречиво. Google не сможет прочитать noindex, если Disallow заблокирует краулинг. Именно здесь и возникают ошибки, которые мы рассмотрим ниже.

В нашей практике самая частая ошибка — это Disallow на /ua/ или /ru/ целых языковых секций. Клиент думает, что «закрыл технические страницы», а на самом деле заблокировал весь украиноязычный или русскоязычный контент от индексации.

robots.txt: синтаксис Disallow, Allow и директивы

Файл robots.txt — это текстовый файл в корне сайта по адресу https://site.ua/robots.txt. Он читается краулерами перед началом обхода. Вот основной синтаксис, с которым приходится работать каждый день.

Основные директивы:

  • User-agent: * — правило применяется ко всем ботам. Можно указать конкретного бота: User-agent: Googlebot.
  • Disallow: /path/ — запретить обход указанного пути и всего, что расположено глубже.
  • Allow: /path/ — разрешить обход конкретного пути, даже если родительская папка заблокирована через Disallow.
  • Sitemap: https://site.ua/sitemap.xml — указать расположение sitemap. Не влияет на краулинг, но помогает Google найти все URL.
  • Crawl-delay: 5 — задержка между запросами в секундах. Google официально не поддерживает эту директиву; для управления частотой обхода используйте GSC.

Важные нюансы синтаксиса:

Запись Что блокирует Что остаётся открытым
Disallow: /admin/ /admin/ и все подпапки /administrator/, /admin-tools/ — не блокирует!
Disallow: / Весь сайт полностью Ничего — опасная ошибка
Disallow: /*.php$ Все URL, заканчивающиеся на .php /page.php?id=1 — тоже блокирует (знак $ — конец URL)
Disallow: /*?sort= Все URL с параметром ?sort= в любом месте /catalog/ без параметров
Allow: /admin/login.html
Disallow: /admin/
/admin/ кроме /admin/login.html Страница логина остаётся открытой
Disallow: (пустое) Ничего — пустой Disallow означает «разрешить всё» Весь сайт открыт

Регулярные выражения в robots.txt ограничены: поддерживается только * (любая последовательность символов) и $ (конец строки URL). Полноценный regex Google не поддерживает.

Практический совет: Всегда проверяйте robots.txt через Google Search Console (раздел Indexing — robots.txt) или через официальный тестировщик Google. Ошибка в синтаксисе может заблокировать целые разделы сайта без каких-либо предупреждений.

Мы проверяли десятки robots.txt и нашли один типичный сценарий: разработчик ставит Disallow: / во время разработки сайта, а после запуска забывает его убрать. Сайт живёт месяцами с полностью заблокированной индексацией — и никаких ошибок в GSC, потому что бот просто не заходит.

Тег noindex и meta robots: где и как ставить

Директива noindex может передаваться несколькими способами. Разберём каждый и укажем, где возникают ошибки.

1. Мета-тег в <head> страницы:

<meta name="robots" content="noindex, follow">

Наиболее распространённый способ. Тег читается после того, как Googlebot загрузит и отрендерит HTML. Если страница закрыта через Disallow — тег не читается вообще.

2. HTTP-заголовок X-Robots-Tag:

X-Robots-Tag: noindex

Передаётся в HTTP-ответе сервера. Единственный вариант для не-HTML ресурсов: PDF-файлов, изображений, документов Word. Если нужно убрать из индекса PDF-каталог — только через X-Robots-Tag или через robots.txt (Disallow для PDF-директории).

3. Комбинации директив в content:

Директива Значение Когда использовать
noindex, follow Не индексировать, но переходить по ссылкам Страницы пагинации, технические страницы с полезными ссылками
noindex, nofollow Не индексировать и не переходить по ссылкам Страницы авторизации, корзина, страницы подтверждения заказа
index, follow Стандартное поведение (по умолчанию) Почти никогда не нужно указывать явно
nosnippet Не показывать сниппет в результатах Страницы с конфиденциальным текстом
noimageindex Не индексировать изображения на странице Страницы с лицензированными фотографиями

Частая ошибка с CMS: WordPress по умолчанию ставит noindex на всех страницах, когда сайт в режиме «Обслуживание» или когда в настройках чтения выбрано «Запретить поисковым системам индексировать сайт». После запуска это настройку забывают отключить — и сайт годами живёт с noindex на всех страницах.

Disallow против noindex: ключевые отличия Disallow vs noindex — что каждая директива реально делает Disallow в robots.txt noindex (meta robots / HTTP) Блокирует загрузку HTML-кода страницы URL может попасть в индекс через внешние ссылки Не гарантирует исключения из поисковой выдачи Краулер загружает страницу, читает тег Гарантированно исключает URL из поисковой выдачи Расходует краулинговый бюджет на закрытые страницы
Disallow и noindex решают разные задачи — и ни одна не заменяет другую полностью

Disallow против noindex — почему не взаимозаменяемы

Это концептуальная ошибка, которая стоит позиций. Разберём конкретно, что происходит в каждом из неправильных сценариев.

Сценарий 1: Только Disallow, без noindex

Googlebot не загружает страницу. Но если на страницу есть хотя бы одна внешняя ссылка или она есть в Sitemap — Google знает о существовании URL. Поисковик может добавить URL в индекс без контента: строка в выдаче появляется, но без сниппета. Классический пример — страницы /cart/, /checkout/, /thank-you/, которые попадают в выдачу потому, что какой-то сайт или скрапер поставил ссылку.

Сценарий 2: Только noindex, без Disallow

Googlebot регулярно заходит на страницу, считывает noindex и не добавляет в индекс. Технически правильно — но краулинговый бюджет расходуется на страницы без SEO-ценности. Для небольших сайтов (до 1000 страниц) это несущественно. Для крупных интернет-магазинов с сотнями тысяч технических URL — критическая потеря бюджета.

Сценарий 3: Disallow + noindex одновременно

Худший вариант. Страница закрыта от краулинга — Googlebot не загружает HTML. Тег noindex в HTML не читается. Результат: Google может либо вообще не знать о странице, либо знать URL (через ссылки), но не знать о директиве noindex. Если кто-то ссылается на этот URL — он может попасть в индекс без контента.

Правильная комбинация зависит от цели:

  • Хотите сэкономить краулинговый бюджет и не нужна выдача → Disallow + убедитесь, что нет внешних ссылок.
  • Хотите гарантированно исключить из выдачи → noindex (без Disallow), открыть для краулинга.
  • Технические страницы без внешних ссылок, бюджет важен → Disallow достаточно.
  • Страницы с возможными внешними ссылками → только noindex, без Disallow.
Ключевой принцип: если страница должна быть гарантированно исключена из поисковой выдачи — единственный надёжный способ это noindex при открытом краулинге. Disallow — это про краулинговый бюджет, а не про выдачу.

Топ-7 ошибок индексации, которые мы видим у клиентов

За годы аудитов мы систематизировали ошибки, которые встречаются чаще всего. Вот семь наиболее разрушительных — с примерами и способами исправления.

Топ-7 ошибок в robots.txt и noindex Самые частые ошибки индексации (из практики аудитов) 1 Disallow: / — весь сайт закрыт Остаётся после разработки. GSC покажет ноль проиндексированных страниц. 2 Disallow на языковую секцию /ua/ или /ru/ Блокирует весь контент языковой версии. Трафик с органики обнуляется. 3 noindex + Disallow на одной странице Noindex не читается. URL может быть в индексе без контента. 4 CSS и JS в Disallow Google не рендерит страницы. Качество индексации падает. 5 Noindex в WordPress после запуска Галочка "discourage search engines" осталась включённой. 6 Noindex на страницах с ценными backlinks Вес ссылок не передаётся. PageRank исчезает в никуда. 7 Блокировка /products/ или /catalog/ в e-commerce Весь товарный каталог исчезает из поиска. Катастрофическая потеря трафика.
Семь ошибок — от критических (Disallow на весь сайт) до скрытых (CSS в robots.txt)

Ошибка 1: Disallow: / после разработки

Разработчики закрывают весь сайт во время создания, чтобы избежать индексации незавершённого контента. После запуска эту строку забывают убрать. Сайт может жить месяцами с нулевой индексацией. GSC показывает «Excluded: Blocked by robots.txt» для всех URL.

Ошибка 2: Disallow на языковую секцию

В нашей практике самая частая ошибка — это именно Disallow на /ua/ или /ru/ целых языковых секций. Владелец думает, что «убирает лишнее», а на самом деле блокирует весь контент одной из языковых версий. Органический трафик по этому языку обнуляется через несколько недель после переобхода.

Ошибка 3: CSS и JavaScript в Disallow

Старые инструкции по «оптимизации» советовали закрывать /wp-content/plugins/ и /wp-content/themes/ через robots.txt. Это приводило к тому, что Googlebot не мог отрендерить страницу и видел только «скелет» HTML без стилей. Google может ранжировать такую страницу значительно ниже, так как без рендеринга JS-фреймворков он видит значительно меньше контента.

Ошибка 4: Один клиент из e-commerce ниши закрыл от индексации всю папку /products/ и потерял...

Реальный кейс из нашей практики. Интернет-магазин бытовой техники имел более 3000 товарных страниц. Новый разработчик «почистил» robots.txt и добавил Disallow: /products/, считая это служебной папкой. За 6 недель органический трафик упал на 78%. GSC показал, что все товарные страницы имеют статус «Excluded: Blocked by robots.txt». Восстановление после исправления заняло ещё 3 месяца.

Ошибка 5: Noindex на пагинацию при сохранении ссылок

Страницы /catalog/?page=2, /catalog/?page=3 закрываются через noindex, чтобы «не дублировать контент». При этом вся внутренняя перелинковка и внешние ссылки из каталогов продолжают передавать вес на эти страницы — а он никуда не уходит, так как noindex блокирует передачу.

Ошибка 6: Noindex на странице с backlinks

Если старая страница получила внешние ссылки, а затем на неё поставили noindex (вместо 301-редиректа на актуальную версию), весь ссылочный вес просто исчезает. Правильное решение: 301-редирект на актуальную страницу.

Ошибка 7: Robots.txt без проверки после изменений в CMS

Обновление плагинов, миграция на новый хостинг, изменение структуры URL — всё это может автоматически перезаписать robots.txt. Особенно часто это происходит с Yoast SEO, Rank Math и OpenCart-плагинами. Мы проверяли десятки robots.txt и нашли один типичный сценарий: после обновления Yoast плагин «восстанавливает» robots.txt до дефолтного шаблона, убирая все кастомные правила, которые настраивал SEO-специалист.

Подробный технический SEO-аудит включает обязательную проверку robots.txt и сравнение с предыдущей версией файла через Git или архив.

Краулинговый бюджет и практика управления индексацией

Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за определённый период времени. Для сайтов до 10 000 страниц он редко становится критическим. Но для интернет-магазинов с сотнями тысяч товарных URL правильная настройка robots.txt напрямую влияет на то, как быстро новые страницы попадают в выдачу.

Google определяет краулинговый бюджет на основе двух факторов:

  • Crawl rate limit — максимальная частота запросов, которую Googlebot считает безопасной для вашего сервера. Можно скорректировать в GSC (Settings → Crawl rate).
  • Crawl demand — насколько популярным Google считает сайт. Чем больше внешних ссылок и чем выше авторитет домена, тем больше бюджета выделяется.

Как robots.txt и noindex влияют на расход бюджета:

Состояние страницы Расход бюджета Эффект для SEO
Открытая, проиндексированная Да — стандартный обход Нормально
Открытая, noindex Да — бот заходит и читает noindex Бюджет расходуется впустую
Disallow в robots.txt Нет — бот не делает запрос Экономия, но без гарантии исключения из индекса
Disallow + есть в Sitemap Нет — но Google видит противоречие GSC выдаст предупреждение "Blocked by robots.txt"
404 или 410 Один запрос, затем бот перестаёт посещать Самый чистый способ убрать ненужный URL

Практическое правило для крупных сайтов: технические страницы (корзина, авторизация, личный кабинет, служебные URL CMS) лучше всего закрывать через Disallow — это гарантирует отсутствие бесполезных краулинговых запросов. Но при этом важно проверять, нет ли на эти URL внешних ссылок через Ahrefs или Google Search Console (раздел Links → External links).

Контентные страницы с noindex — например, фильтрованные страницы каталога, которые появляются в выдаче через параметры — лучше защищать через canonical на базовый URL. Это одновременно защищает от индексации дублей и не тратит лишний бюджет на обход сотен вариантов.

Один из наших клиентов — агрегатор недвижимости с ~200 000 URL — имел в robots.txt открытыми все страницы поиска с параметрами: /search?type=apartment&city=kyiv&rooms=2&price=50000 и так далее. Каждая комбинация параметров давала отдельный URL, и таких комбинаций насчитывалось более 80 000. Googlebot тратил весь бюджет на эти страницы, практически не добираясь до новых объявлений. После добавления Disallow: /search и настройки canonical на страницах результатов поиска — скорость краулинга новых объявлений выросла в четыре раза по данным GSC.

Ещё один недооценённый инструмент — XML Sitemap как приоритетная очередь. Google не гарантирует порядок краулинга на основе Sitemap, но страницы из Sitemap получают приоритет при первой индексации. Поэтому в Sitemap должны быть только страницы с открытой индексацией — никаких URL с noindex или Disallow. Присутствие закрытых URL в Sitemap — ещё одно частое противоречие, которое GSC фиксирует как предупреждение.

Проверка через Google Search Console: URL Inspection

Google Search Console — основной инструмент для проверки реального состояния индексации. Разберём, как правильно читать данные и что означают различные статусы.

Инструмент URL Inspection (проверка URL):

  1. Введите URL в строку поиска в верхней части GSC.
  2. GSC покажет статус: «URL is on Google» (проиндексирована) или одну из причин исключения.
  3. Нажмите «Test live URL» — это проверит текущее состояние, а не кешированное.
  4. На вкладке «Crawl» можно увидеть, когда Googlebot последний раз загружал страницу и есть ли перенаправления.

Наиболее важные статусы в разделе Indexing → Pages:

Статус GSC Значение Что делать
Indexed, not submitted in sitemap Страница в индексе, но не в Sitemap Добавить в Sitemap или проверить, нужна ли эта страница в индексе
Excluded by robots.txt Заблокирована через Disallow Проверить robots.txt — намеренная ли блокировка
Excluded: noindex tag Есть тег noindex Проверить, намеренно ли. Если нет — убрать noindex
Crawled, currently not indexed Google загрузил, но не добавил в индекс Проблемы с качеством контента, thin content, или Google считает страницу неполезной
Discovered, currently not indexed Google знает об URL, но ещё не краулил Проверить краулинговый бюджет, внутреннюю перелинковку
Duplicate without user-selected canonical Google нашёл дубль и сам выбрал основную версию Прописать canonical явно — Google мог выбрать не ту версию
Google Search Console URL Inspection: URL is on Google vs Blocked by robots.txt GSC URL Inspection: два типичных состояния URL is on Google Coverage Indexed, submitted in sitemap Last crawl: 2 days ago Crawled as: Googlebot Smartphone Canonical: user-declared Request Indexing URL is not on Google Why page is not indexed Page is blocked by robots.txt Last availability check: today Googlebot cannot access this URL Test Live URL
URL Inspection в GSC сразу показывает причину: проиндексировано, заблокировано robots.txt или исключено через noindex

Как проверить robots.txt через GSC:

  1. Перейдите в Settings → robots.txt в GSC.
  2. GSC покажет текущее содержимое файла и подсветит синтаксические ошибки.
  3. Воспользуйтесь встроенным тестировщиком: введите URL и выберите User-agent — система покажет, заблокирован URL или нет.

Регулярный мониторинг: рекомендуем настроить оповещения GSC (Settings → Email preferences) на резкий рост количества исключённых страниц. Если количество «Excluded: Blocked by robots.txt» внезапно выросло — это сигнал тревоги: скорее всего, robots.txt был перезаписан.

Полноценную проверку состояния индексации стоит проводить в рамках регулярного аудита. Подробнее о работе с инструментами — в нашем гайде по Google Search Console.

Официальную документацию Google по robots.txt и механизму краулинга можно найти в справке для вебмастеров.


Частые вопросы

Что произойдёт, если закрыть страницу через Disallow и не поставить noindex?

Googlebot не сможет прочитать страницу, но если на неё есть внешние ссылки или она есть в Sitemap, Google может добавить URL в индекс без содержимого — так называемая индексация без краулинга. Для гарантированного исключения нужен noindex, доступный для краулера.

Можно ли использовать Disallow и noindex одновременно?

Это противоречивые инструкции. Если страница закрыта через Disallow, Googlebot не прочитает тег noindex. Google рекомендует: либо разрешить краулинг и поставить noindex, либо закрыть через Disallow без noindex — но тогда URL может попасть в индекс через внешние ссылки.

Как быстро Google убирает страницу из индекса после добавления noindex?

После следующего обхода краулером — обычно от нескольких дней до 4 недель. Ускорить процесс можно через Google Search Console: инструмент URL Inspection — Request Indexing, после чего Google повторно проверит страницу и обработает директиву noindex.

Влияет ли robots.txt на ранжирование страниц, которые остаются открытыми?

Напрямую — нет. Robots.txt определяет только доступность для краулинга. Но если важные ресурсы (CSS, JS, изображения) закрыты через Disallow, Googlebot не сможет полноценно отрендерить страницу, что может снизить качество индексации и позиции.

Есть проблемы с индексацией?

Ошибка в robots.txt или случайный noindex на важных страницах — это всегда тихий ущерб: позиции падают постепенно, без громких предупреждений. Мы проверяем robots.txt, состояние индексации и краулинговый бюджет в рамках технического SEO-аудита — и даём конкретный список исправлений с приоритетами.

SEO-продвижение сайта    Получить консультацию
Денис Фещенко
Опытный специалист в сфере продвижения бизнеса в соцсетях и поисковых системах. Работаю с Instagram, TikTok, Telegram, YouTube и Google Ads, помогая компаниям привлекать целевую аудиторию, строить имидж и увеличивать продажи. Более 7 лет в digital-маркетинге. Автор практических руководств и статей по SMM, SEO и PPC.
Последнее
AMP в 2026

18.06.2026 11:07

AMP в 2026