В корзине пусто!
Disallow в robots.txt блокирует краулинг, но не гарантирует исключения из индекса. Noindex запрещает индексацию, но не останавливает краулер. Путаница между этими двумя механизмами — одна из самых частых причин потери позиций.
Содержание
- Краулинг и индексация — два разных процесса
- robots.txt: синтаксис Disallow, Allow и директивы
- Тег noindex и meta robots: где и как ставить
- Disallow против noindex — почему не взаимозаменяемы
- Топ-7 ошибок индексации, которые мы видим у клиентов
- Проверка через Google Search Console: URL Inspection
- Частые вопросы
Краулинг и индексация — два разных процесса
Большинство владельцев сайтов используют слова «краулинг» и «индексация» как синонимы. На самом деле это два последовательных, но принципиально разных шага, и ошибки возникают именно из-за смешения этих понятий.
Краулинг — это когда Googlebot (или другой поисковый бот) загружает HTML-код страницы. На этом шаге бот читает ссылки, CSS, JavaScript и robots.txt. Robots.txt управляет именно краулингом: директива Disallow говорит боту «не загружай этот URL».
Индексация — следующий шаг: анализ загруженного контента и добавление страницы в поисковый индекс. Тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag: noindex управляют именно этим шагом. Если страница закрыта через Disallow — бот её не загрузит, а значит, и не прочитает noindex.
Разберём практическое следствие этого разделения. Есть три возможных состояния страницы:
- Открытая для краулинга и открытая для индексации — обычная страница, которую Google читает и добавляет в результаты поиска.
- Открытая для краулинга, но закрытая для индексации (noindex) — Google заходит на страницу, читает тег noindex и не добавляет её в выдачу. Краулинговый бюджет расходуется.
- Закрытая для краулинга через Disallow — Google не загружает страницу вообще. Но если на неё есть внешние ссылки или она есть в Sitemap, URL может попасть в индекс без контента — «пустая» индексация.
Четвёртое состояние — «закрытая через Disallow и noindex одновременно» — технически возможно, но противоречиво. Google не сможет прочитать noindex, если Disallow заблокирует краулинг. Именно здесь и возникают ошибки, которые мы рассмотрим ниже.
В нашей практике самая частая ошибка — это Disallow на /ua/ или /ru/ целых языковых секций. Клиент думает, что «закрыл технические страницы», а на самом деле заблокировал весь украиноязычный или русскоязычный контент от индексации.
robots.txt: синтаксис Disallow, Allow и директивы
Файл robots.txt — это текстовый файл в корне сайта по адресу https://site.ua/robots.txt. Он читается краулерами перед началом обхода. Вот основной синтаксис, с которым приходится работать каждый день.
Основные директивы:
User-agent: *— правило применяется ко всем ботам. Можно указать конкретного бота:User-agent: Googlebot.Disallow: /path/— запретить обход указанного пути и всего, что расположено глубже.Allow: /path/— разрешить обход конкретного пути, даже если родительская папка заблокирована через Disallow.Sitemap: https://site.ua/sitemap.xml— указать расположение sitemap. Не влияет на краулинг, но помогает Google найти все URL.Crawl-delay: 5— задержка между запросами в секундах. Google официально не поддерживает эту директиву; для управления частотой обхода используйте GSC.
Важные нюансы синтаксиса:
| Запись | Что блокирует | Что остаётся открытым |
|---|---|---|
Disallow: /admin/ |
/admin/ и все подпапки | /administrator/, /admin-tools/ — не блокирует! |
Disallow: / |
Весь сайт полностью | Ничего — опасная ошибка |
Disallow: /*.php$ |
Все URL, заканчивающиеся на .php | /page.php?id=1 — тоже блокирует (знак $ — конец URL) |
Disallow: /*?sort= |
Все URL с параметром ?sort= в любом месте | /catalog/ без параметров |
Allow: /admin/login.htmlDisallow: /admin/ |
/admin/ кроме /admin/login.html | Страница логина остаётся открытой |
Disallow: (пустое) |
Ничего — пустой Disallow означает «разрешить всё» | Весь сайт открыт |
Регулярные выражения в robots.txt ограничены: поддерживается только * (любая последовательность символов) и $ (конец строки URL). Полноценный regex Google не поддерживает.
Мы проверяли десятки robots.txt и нашли один типичный сценарий: разработчик ставит Disallow: / во время разработки сайта, а после запуска забывает его убрать. Сайт живёт месяцами с полностью заблокированной индексацией — и никаких ошибок в GSC, потому что бот просто не заходит.
Тег noindex и meta robots: где и как ставить
Директива noindex может передаваться несколькими способами. Разберём каждый и укажем, где возникают ошибки.
1. Мета-тег в <head> страницы:
<meta name="robots" content="noindex, follow">
Наиболее распространённый способ. Тег читается после того, как Googlebot загрузит и отрендерит HTML. Если страница закрыта через Disallow — тег не читается вообще.
2. HTTP-заголовок X-Robots-Tag:
X-Robots-Tag: noindex
Передаётся в HTTP-ответе сервера. Единственный вариант для не-HTML ресурсов: PDF-файлов, изображений, документов Word. Если нужно убрать из индекса PDF-каталог — только через X-Robots-Tag или через robots.txt (Disallow для PDF-директории).
3. Комбинации директив в content:
| Директива | Значение | Когда использовать |
|---|---|---|
noindex, follow |
Не индексировать, но переходить по ссылкам | Страницы пагинации, технические страницы с полезными ссылками |
noindex, nofollow |
Не индексировать и не переходить по ссылкам | Страницы авторизации, корзина, страницы подтверждения заказа |
index, follow |
Стандартное поведение (по умолчанию) | Почти никогда не нужно указывать явно |
nosnippet |
Не показывать сниппет в результатах | Страницы с конфиденциальным текстом |
noimageindex |
Не индексировать изображения на странице | Страницы с лицензированными фотографиями |
Частая ошибка с CMS: WordPress по умолчанию ставит noindex на всех страницах, когда сайт в режиме «Обслуживание» или когда в настройках чтения выбрано «Запретить поисковым системам индексировать сайт». После запуска это настройку забывают отключить — и сайт годами живёт с noindex на всех страницах.
Disallow против noindex — почему не взаимозаменяемы
Это концептуальная ошибка, которая стоит позиций. Разберём конкретно, что происходит в каждом из неправильных сценариев.
Сценарий 1: Только Disallow, без noindex
Googlebot не загружает страницу. Но если на страницу есть хотя бы одна внешняя ссылка или она есть в Sitemap — Google знает о существовании URL. Поисковик может добавить URL в индекс без контента: строка в выдаче появляется, но без сниппета. Классический пример — страницы /cart/, /checkout/, /thank-you/, которые попадают в выдачу потому, что какой-то сайт или скрапер поставил ссылку.
Сценарий 2: Только noindex, без Disallow
Googlebot регулярно заходит на страницу, считывает noindex и не добавляет в индекс. Технически правильно — но краулинговый бюджет расходуется на страницы без SEO-ценности. Для небольших сайтов (до 1000 страниц) это несущественно. Для крупных интернет-магазинов с сотнями тысяч технических URL — критическая потеря бюджета.
Сценарий 3: Disallow + noindex одновременно
Худший вариант. Страница закрыта от краулинга — Googlebot не загружает HTML. Тег noindex в HTML не читается. Результат: Google может либо вообще не знать о странице, либо знать URL (через ссылки), но не знать о директиве noindex. Если кто-то ссылается на этот URL — он может попасть в индекс без контента.
Правильная комбинация зависит от цели:
- Хотите сэкономить краулинговый бюджет и не нужна выдача → Disallow + убедитесь, что нет внешних ссылок.
- Хотите гарантированно исключить из выдачи → noindex (без Disallow), открыть для краулинга.
- Технические страницы без внешних ссылок, бюджет важен → Disallow достаточно.
- Страницы с возможными внешними ссылками → только noindex, без Disallow.
Топ-7 ошибок индексации, которые мы видим у клиентов
За годы аудитов мы систематизировали ошибки, которые встречаются чаще всего. Вот семь наиболее разрушительных — с примерами и способами исправления.
Ошибка 1: Disallow: / после разработки
Разработчики закрывают весь сайт во время создания, чтобы избежать индексации незавершённого контента. После запуска эту строку забывают убрать. Сайт может жить месяцами с нулевой индексацией. GSC показывает «Excluded: Blocked by robots.txt» для всех URL.
Ошибка 2: Disallow на языковую секцию
В нашей практике самая частая ошибка — это именно Disallow на /ua/ или /ru/ целых языковых секций. Владелец думает, что «убирает лишнее», а на самом деле блокирует весь контент одной из языковых версий. Органический трафик по этому языку обнуляется через несколько недель после переобхода.
Ошибка 3: CSS и JavaScript в Disallow
Старые инструкции по «оптимизации» советовали закрывать /wp-content/plugins/ и /wp-content/themes/ через robots.txt. Это приводило к тому, что Googlebot не мог отрендерить страницу и видел только «скелет» HTML без стилей. Google может ранжировать такую страницу значительно ниже, так как без рендеринга JS-фреймворков он видит значительно меньше контента.
Ошибка 4: Один клиент из e-commerce ниши закрыл от индексации всю папку /products/ и потерял...
Реальный кейс из нашей практики. Интернет-магазин бытовой техники имел более 3000 товарных страниц. Новый разработчик «почистил» robots.txt и добавил Disallow: /products/, считая это служебной папкой. За 6 недель органический трафик упал на 78%. GSC показал, что все товарные страницы имеют статус «Excluded: Blocked by robots.txt». Восстановление после исправления заняло ещё 3 месяца.
Ошибка 5: Noindex на пагинацию при сохранении ссылок
Страницы /catalog/?page=2, /catalog/?page=3 закрываются через noindex, чтобы «не дублировать контент». При этом вся внутренняя перелинковка и внешние ссылки из каталогов продолжают передавать вес на эти страницы — а он никуда не уходит, так как noindex блокирует передачу.
Ошибка 6: Noindex на странице с backlinks
Если старая страница получила внешние ссылки, а затем на неё поставили noindex (вместо 301-редиректа на актуальную версию), весь ссылочный вес просто исчезает. Правильное решение: 301-редирект на актуальную страницу.
Ошибка 7: Robots.txt без проверки после изменений в CMS
Обновление плагинов, миграция на новый хостинг, изменение структуры URL — всё это может автоматически перезаписать robots.txt. Особенно часто это происходит с Yoast SEO, Rank Math и OpenCart-плагинами. Мы проверяли десятки robots.txt и нашли один типичный сценарий: после обновления Yoast плагин «восстанавливает» robots.txt до дефолтного шаблона, убирая все кастомные правила, которые настраивал SEO-специалист.
Подробный технический SEO-аудит включает обязательную проверку robots.txt и сравнение с предыдущей версией файла через Git или архив.
Краулинговый бюджет и практика управления индексацией
Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за определённый период времени. Для сайтов до 10 000 страниц он редко становится критическим. Но для интернет-магазинов с сотнями тысяч товарных URL правильная настройка robots.txt напрямую влияет на то, как быстро новые страницы попадают в выдачу.
Google определяет краулинговый бюджет на основе двух факторов:
- Crawl rate limit — максимальная частота запросов, которую Googlebot считает безопасной для вашего сервера. Можно скорректировать в GSC (Settings → Crawl rate).
- Crawl demand — насколько популярным Google считает сайт. Чем больше внешних ссылок и чем выше авторитет домена, тем больше бюджета выделяется.
Как robots.txt и noindex влияют на расход бюджета:
| Состояние страницы | Расход бюджета | Эффект для SEO |
|---|---|---|
| Открытая, проиндексированная | Да — стандартный обход | Нормально |
| Открытая, noindex | Да — бот заходит и читает noindex | Бюджет расходуется впустую |
| Disallow в robots.txt | Нет — бот не делает запрос | Экономия, но без гарантии исключения из индекса |
| Disallow + есть в Sitemap | Нет — но Google видит противоречие | GSC выдаст предупреждение "Blocked by robots.txt" |
| 404 или 410 | Один запрос, затем бот перестаёт посещать | Самый чистый способ убрать ненужный URL |
Практическое правило для крупных сайтов: технические страницы (корзина, авторизация, личный кабинет, служебные URL CMS) лучше всего закрывать через Disallow — это гарантирует отсутствие бесполезных краулинговых запросов. Но при этом важно проверять, нет ли на эти URL внешних ссылок через Ahrefs или Google Search Console (раздел Links → External links).
Контентные страницы с noindex — например, фильтрованные страницы каталога, которые появляются в выдаче через параметры — лучше защищать через canonical на базовый URL. Это одновременно защищает от индексации дублей и не тратит лишний бюджет на обход сотен вариантов.
Один из наших клиентов — агрегатор недвижимости с ~200 000 URL — имел в robots.txt открытыми все страницы поиска с параметрами: /search?type=apartment&city=kyiv&rooms=2&price=50000 и так далее. Каждая комбинация параметров давала отдельный URL, и таких комбинаций насчитывалось более 80 000. Googlebot тратил весь бюджет на эти страницы, практически не добираясь до новых объявлений. После добавления Disallow: /search и настройки canonical на страницах результатов поиска — скорость краулинга новых объявлений выросла в четыре раза по данным GSC.
Ещё один недооценённый инструмент — XML Sitemap как приоритетная очередь. Google не гарантирует порядок краулинга на основе Sitemap, но страницы из Sitemap получают приоритет при первой индексации. Поэтому в Sitemap должны быть только страницы с открытой индексацией — никаких URL с noindex или Disallow. Присутствие закрытых URL в Sitemap — ещё одно частое противоречие, которое GSC фиксирует как предупреждение.
Проверка через Google Search Console: URL Inspection
Google Search Console — основной инструмент для проверки реального состояния индексации. Разберём, как правильно читать данные и что означают различные статусы.
Инструмент URL Inspection (проверка URL):
- Введите URL в строку поиска в верхней части GSC.
- GSC покажет статус: «URL is on Google» (проиндексирована) или одну из причин исключения.
- Нажмите «Test live URL» — это проверит текущее состояние, а не кешированное.
- На вкладке «Crawl» можно увидеть, когда Googlebot последний раз загружал страницу и есть ли перенаправления.
Наиболее важные статусы в разделе Indexing → Pages:
| Статус GSC | Значение | Что делать |
|---|---|---|
| Indexed, not submitted in sitemap | Страница в индексе, но не в Sitemap | Добавить в Sitemap или проверить, нужна ли эта страница в индексе |
| Excluded by robots.txt | Заблокирована через Disallow | Проверить robots.txt — намеренная ли блокировка |
| Excluded: noindex tag | Есть тег noindex | Проверить, намеренно ли. Если нет — убрать noindex |
| Crawled, currently not indexed | Google загрузил, но не добавил в индекс | Проблемы с качеством контента, thin content, или Google считает страницу неполезной |
| Discovered, currently not indexed | Google знает об URL, но ещё не краулил | Проверить краулинговый бюджет, внутреннюю перелинковку |
| Duplicate without user-selected canonical | Google нашёл дубль и сам выбрал основную версию | Прописать canonical явно — Google мог выбрать не ту версию |
Как проверить robots.txt через GSC:
- Перейдите в Settings → robots.txt в GSC.
- GSC покажет текущее содержимое файла и подсветит синтаксические ошибки.
- Воспользуйтесь встроенным тестировщиком: введите URL и выберите User-agent — система покажет, заблокирован URL или нет.
Регулярный мониторинг: рекомендуем настроить оповещения GSC (Settings → Email preferences) на резкий рост количества исключённых страниц. Если количество «Excluded: Blocked by robots.txt» внезапно выросло — это сигнал тревоги: скорее всего, robots.txt был перезаписан.
Полноценную проверку состояния индексации стоит проводить в рамках регулярного аудита. Подробнее о работе с инструментами — в нашем гайде по Google Search Console.
Официальную документацию Google по robots.txt и механизму краулинга можно найти в справке для вебмастеров.
Частые вопросы
Что произойдёт, если закрыть страницу через Disallow и не поставить noindex?
Googlebot не сможет прочитать страницу, но если на неё есть внешние ссылки или она есть в Sitemap, Google может добавить URL в индекс без содержимого — так называемая индексация без краулинга. Для гарантированного исключения нужен noindex, доступный для краулера.
Можно ли использовать Disallow и noindex одновременно?
Это противоречивые инструкции. Если страница закрыта через Disallow, Googlebot не прочитает тег noindex. Google рекомендует: либо разрешить краулинг и поставить noindex, либо закрыть через Disallow без noindex — но тогда URL может попасть в индекс через внешние ссылки.
Как быстро Google убирает страницу из индекса после добавления noindex?
После следующего обхода краулером — обычно от нескольких дней до 4 недель. Ускорить процесс можно через Google Search Console: инструмент URL Inspection — Request Indexing, после чего Google повторно проверит страницу и обработает директиву noindex.
Влияет ли robots.txt на ранжирование страниц, которые остаются открытыми?
Напрямую — нет. Robots.txt определяет только доступность для краулинга. Но если важные ресурсы (CSS, JS, изображения) закрыты через Disallow, Googlebot не сможет полноценно отрендерить страницу, что может снизить качество индексации и позиции.
Есть проблемы с индексацией?
Ошибка в robots.txt или случайный noindex на важных страницах — это всегда тихий ущерб: позиции падают постепенно, без громких предупреждений. Мы проверяем robots.txt, состояние индексации и краулинговый бюджет в рамках технического SEO-аудита — и даём конкретный список исправлений с приоритетами.
SEO-продвижение сайта Получить консультацию


