Краулинговый бюджет Google: полное руководство по оптимизации Crawl Budget

Дата публикации: 12.06.2026 11:56

Краулинговый бюджет — лимит страниц, которые Googlebot обходит на вашем сайте за сутки. Для магазинов и порталов от 10 000 страниц его нехватка напрямую блокирует индексацию новых товаров. Ниже — кейс, инструменты и конкретные шаги.


Что такое краулинговый бюджет и из чего он состоит

Googlebot не обходит весь интернет равномерно. Каждый сайт получает определённую «квоту» — количество HTTP-запросов, которое бот готов сделать за день. Google официально называет это crawl budget.

Он состоит из двух компонентов:

  • Crawl rate limit — максимальная скорость краулинга без риска перегрузить сервер. Google повышает или снижает её в зависимости от времени ответа сервера. Если сайт отвечает за 200 мс — бот краулит агрессивнее; если за 2 секунды — тормозит.
  • Crawl demand — спрос на краулинг, который определяется популярностью страниц в поиске и частотой обновления контента. Новая страница с беклинками будет проиндексирована раньше, чем старая пустая.

Реальный бюджет = минимум из этих двух значений. Если сервер медленный — бот обходит меньше страниц, даже если спрос велик. Если контент редко обновляется — спрос низкий, и бот приходит редко.

Google официально подтвердил концепцию crawl budget в документации для Search Central. Источник: developers.google.com.
Краулинговый бюджет: crawl rate limit + crawl demand Составляющие краулингового бюджета Crawl Rate Limit (скорость без перегрузки) + Время ответа сервера + Стабильность хостинга + HTTP-статусы (5xx снижают) + Лимиты Google Search Console Crawl Demand (спрос на сканирование) + Популярность URL + Частота обновлений + Количество беклинков + Глубина страницы в структуре + Crawl Budget = min(Rate Limit, Demand)
Схема: краулинговый бюджет формируется как минимум из двух составляющих

Для кого это критично: размер сайта и приоритеты

Google прямо указывает: для небольших сайтов (до 1 000 качественных страниц) краулинговый бюджет не является проблемой — бот успевает обойти всё. Ситуация кардинально меняется, как только сайт переходит определённый порог.

Из нашей практики продвижения e-commerce проектов, проблема становится ощутимой при таких масштабах:

  • 10 000–50 000 страниц — бюджет уже ограничен, фильтры и пагинация «крадут» его часть
  • 50 000–200 000 страниц — без управления бюджетом новые товары могут ждать индексации неделями
  • 200 000+ страниц — необходима системная стратегия: приоритизация, закрытие дублей, мониторинг

Особенно уязвимы: интернет-магазины с URL-фильтрами (цвет, размер, бренд), новостные порталы с архивными страницами, агрегаторы с параметрическими URL.

Практический ориентир: если в GSC раздел «Страницы» показывает значительное число URL со статусом «Обнаружено — индексация отложена» — это первый признак нехватки бюджета.

Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней

К нам обратился клиент с интернет-магазином бытовой техники: 15 000 активных SKU, столько же архивных товаров и генерируемые URL для каждой комбинации фильтров. GSC показывал 48 000+ сканируемых URL в месяц, но в индексе находилось лишь около 9 000 товарных страниц.

Диагностика через лог-файлы показала: 58–62% запросов Googlebot тратилось на URL вида /catalog/televisions/?brand=Samsung&color=black&diagonal=55. Реальные страницы товаров, блог и категории получали меньше 40% бюджета.

Работы провели в три этапа:

  1. Аудит URL-пространства — собрали все паттерны URL из лог-файлов и разбили на группы: товары, категории, фильтры, пагинация, UTM-параметры.
  2. Закрытие мусорных URL — в robots.txt добавили Disallow для паттернов фильтров (Disallow: /*?*color=, Disallow: /*?*brand= и т.д.), пагинацию категорий закрыли canonical на первую страницу.
  3. Ускорение сервера — перешли на Redis-кеширование, время ответа снизилось с 1,8 с до 380 мс.

Результат через 90 дней: количество проиндексированных товарных страниц выросло с 9 000 до 28 500 — в 3,2 раза. Органический трафик на товарные страницы +74% по сравнению с базовым месяцем.

До/после: распределение краулингового бюджета после оптимизации Распределение краулингового бюджета: до и после оптимизации До оптимизации После оптимизации 0% 20% 40% 60% 80% 60% 8% Фильтры 30% 66% Товары 14% 28% Категории 5% 13% Блог
Распределение бюджета до и после оптимизации: фильтры с 60% снизились до 8%, товары выросли с 30% до 66%
Таймлайн кейса оптимизации краулингового бюджета Таймлайн кейса: 90 дней от аудита до результата День 1 Аудит URL и лог-файлов День 7 Robots.txt для фильтров День 14 Redis-кеш, 380 мс ответ День 30 GSC: рост сканирования товаров День 90 Индекс x3, трафик +74%
Таймлайн: от диагностики до результата — 90 дней системной работы

Что съедает краулинговый бюджет

Большинство сайтов тратят значительную часть бюджета на URL, которые не имеют никакой ценности для поисковой выдачи. По данным нашего аудита 50+ e-commerce проектов, типичные «пожиратели» распределяются так:

  • URL-параметры фильтров и сортировки?sort=price_asc&page=3&color=red. Одна категория может генерировать тысячи уникальных URL, каждый из которых Googlebot пытается обойти.
  • Пагинация без canonical — страницы /catalog/?page=47 без ссылки на первую страницу. Бот краулит все 200 страниц пагинации вместо того, чтобы сосредоточиться на товарах.
  • Дубли контента — страницы с www и без, HTTP и HTTPS версии, с trailing slash и без. Каждый дубль съедает бюджет.
  • Тонкий контент — пустые категории, страницы тегов с 1–2 товарами, архивные URL удалённых товаров, возвращающие 200 OK вместо 404.
  • Session ID и UTM-параметры в URL?session_id=abc123 или ?utm_source=google, доступные для сканирования.
  • Бесконечный скролл без пагинации — если JS генерирует новые URL при скролле, а сервер их отдаёт напрямую.
Быстрая проверка: зайдите в GSC → Индексирование → Страницы → посмотрите причины «Не в индексе». Если там сотни URL с параметрами — ваш бюджет тратится впустую.

Как анализировать: GSC Crawl Stats и лог-файлы

Есть два уровня анализа краулингового бюджета: базовый (через GSC) и детальный (через лог-файлы сервера).

Google Search Console — Crawl Stats

Путь: GSC → Настройки (шестерня в нижнем левом углу) → Статистика сканирования. Здесь вы увидите:

  • Количество запросов в день — сколько URL обходит Googlebot. Если цифра значительно меньше числа ваших страниц — есть проблема.
  • Средний размер ответа в байтах — подозрительные всплески могут означать тяжёлые страницы.
  • Среднее время ответа — больше 500 мс регулярно снижает crawl rate limit.

GSC также показывает краулинг по типу ответа (2xx, 3xx, 4xx, 5xx). Большое количество 3xx редиректов или 4xx страниц в ежедневном краулинге — прямая потеря бюджета.

Как настроить и читать все отчёты GSC для SEO-анализа — в нашем полном гайде по Google Search Console.

Анализ лог-файлов сервера

Это более детальный уровень, недоступный через интерфейс GSC. Лог-файл Apache или Nginx содержит каждый запрос с User-Agent. Алгоритм анализа:

  1. Выгрузите логи за последние 30 дней (обычно через cPanel, Plesk или SSH).
  2. Отфильтруйте строки с Googlebot в User-Agent: grep "Googlebot" access.log
  3. Подсчитайте запросы по URL-паттернам — сколько запросов на фильтры, товары, категории, статические ресурсы.
  4. Найдите аномалии — URL, которые Googlebot обходит 50+ раз в месяц (признак постоянного переиндексирования или мягких 404).

Удобные инструменты для парсинга логов: Screaming Frog Log File Analyser (Windows), GoAccess (Linux/CLI), или специализированный Semrush Log File Analyzer.

Robots.txt — первый инструмент экономии

Robots.txt — самый быстрый способ освободить бюджет. Googlebot читает его при каждом визите и не тратит запросы на запрещённые URL. Но есть нюанс: закрытые в robots.txt URL всё равно могут попасть в индекс через внешние ссылки — без noindex они просто не будут иметь контента, но останутся в индексе как «заблокированные роботом».

Типичные блоки для e-commerce в robots.txt:

User-agent: *
# Параметры фильтрации
Disallow: /*?*sort=
Disallow: /*?*color=
Disallow: /*?*brand=
Disallow: /*?*size=
# Сессионные параметры
Disallow: /*?*session_id=
Disallow: /*?*PHPSESSID=
# UTM и реклама
Disallow: /*?*utm_
# Админка и личный кабинет
Disallow: /admin/
Disallow: /account/
Disallow: /cart/
Disallow: /checkout/
Важно: не закрывайте через robots.txt страницы, на которые ведут важные внешние ссылки. Если на URL фильтра ссылается авторитетный сайт, лучше использовать noindex вместо Disallow — чтобы Google мог передать PageRank без краулинга контента.

Для проверки корректности robots.txt используйте инструмент Google Search Console: GSC → Настройки → тестер robots.txt. Он показывает, какие URL блокируются для Googlebot и для других ботов.

Canonical и noindex: тонкая настройка

Robots.txt действует на уровне сканирования — бот даже не заходит на страницу. Canonical и noindex — инструменты следующего уровня: бот заходит, но понимает, что страницу не нужно индексировать или что это дубль основного URL.

Подробнее о правилах настройки canonical и типичных ошибках — в нашей статье о канонических тегах.

Canonical — для дублей и параметров

Добавьте canonical на все страницы с параметрами, указывающий на «чистую» версию URL:

<!-- На странице /catalog/phones/?sort=price -->
<link rel="canonical" href="https://example.com/catalog/phones/" />

Canonical подходит, когда страница с параметрами имеет реальную ценность для пользователя (например, полноценная категория по бренду), но вы не хотите, чтобы она конкурировала с основной.

Noindex — для тонкого контента и служебных страниц

Мета-тег <meta name="robots" content="noindex, follow"> указывает Google не включать страницу в индекс, но позволяет переходить по ссылкам. Это важно для:

  • Страниц поиска по сайту (/search/?q=телефон)
  • Пустых категорий и страниц тегов
  • Страниц благодарности после формы (/thank-you/)
  • Архивных страниц удалённых товаров, где 404 нельзя поставить по техническим причинам
Разница между canonical и noindex: canonical говорит «это дубль, основной там», noindex говорит «не индексируй вообще». Для фильтров без беклинков — robots.txt или noindex. Для дублей с беклинками — canonical.

Таблица: размер сайта vs рекомендованный подход

Размер сайта Типичный дневной бюджет Приоритетные действия Критичные проблемы
До 1 000 страниц Неограниченный практически Качество контента, скорость Бюджет не является проблемой
1 000–10 000 1 000–5 000 URL/день Canonical для дублей, sitemap URL-параметры без контроля
10 000–50 000 2 000–15 000 URL/день Robots.txt для фильтров, скорость сервера Пагинация, тонкий контент
50 000–200 000 10 000–50 000 URL/день Анализ логов, приоритизация разделов Дубли, архивные товары, 404-зомби
200 000+ От 50 000 URL/день Системный crawl management, CDN, edge caching Любая из вышеперечисленных в комплексе
Воронка краулинга Googlebot: от запроса до индексации Воронка краулинга: от запроса бота до появления в индексе Все известные URL (Sitemap, ссылки, логи) Не заблокированные robots.txt В пределах текущего бюджета Успешно просканированные (2xx) Попали в индекс 100% ~70-80% ~40-60% ~30-50% ~20-40%
Воронка краулинга: до индекса доходит лишь 20–40% от всех известных URL без оптимизации бюджета

Если ваш сайт нуждается в техническом SEO-аудите, анализ краулингового бюджета — обязательный его элемент. Мы проверяем лог-файлы, robots.txt, дубли и пагинацию как часть комплексной SEO-стратегии продвижения.


На практике

Украинская доска объявлений о работе — 2,4 млн активных вакансий, новые поступают каждые 15 минут — обратилась с тревожным показателем: Googlebot обходил около 12 000 страниц в сутки. При базе в 2,4 млн объявлений это означало, что подавляющая часть контента Google практически не видел.

GSC Crawl Stats подтверждал: среднее время ответа сервера держалось на уровне 2,3 секунды, дневной объём запросов не рос уже четыре месяца. В индексе находилось около 180 000 страниц вакансий — менее 8% от реального каталога.

Анализ лог-файлов через Screaming Frog Log File Analyser показал причину: бот застревал на 800 000 параметрических URL фильтров — /jobs?city=kyiv&salary=30000&type=part-time и десятки тысяч аналогичных комбинаций. После закрытия всех паттернов фильтров в robots.txt (Disallow: /jobs?city=, Disallow: /jobs?salary= и т.д.) бюджет перераспределился на реальные страницы вакансий.

GSC зафиксировал рост ежедневных запросов с 12 000 до 74 000. Количество проиндексированных вакансий выросло с 180 000 до 940 000 за 8 недель.

Критичный вывод для агрегаторов с быстрым обновлением: если вакансия живёт 3–5 дней, а бот приходит на неё через три недели — она уже не актуальна в момент индексации. Закрытие фильтров здесь важнее любой ссылочной работы.

Часто задаваемые вопросы

Что такое краулинговый бюджет Google?

Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за сутки. Складывается из crawl rate limit (максимальная скорость без перегрузки сервера) и crawl demand (спрос на основе популярности и обновлений контента).

Для каких сайтов краулинговый бюджет критичен?

Краулинговый бюджет критичен для сайтов от 10 000 страниц: интернет-магазины с большим каталогом, новостные порталы, агрегаторы. Для небольших сайтов до 1 000 страниц Google, как правило, индексирует всё без ограничений.

Как закрыть URL-параметры от краулинга?

Используйте Disallow в robots.txt для типичных паттернов (например, Disallow: /*?sort=). Для точечного контроля — тег noindex или canonical на страницы с параметрами. Настройка параметров в старом GSC больше недоступна.

Где смотреть статистику краулинга сайта?

В Google Search Console: Настройки → Статистика сканирования (Crawl Stats). Там видно количество запросов в день, средний размер ответа и время ответа. Для детального анализа — лог-файлы сервера, где фильтруем запросы от Googlebot.

Не знаете, сколько бюджета тратится впустую?

Мы проведём технический аудит сайта: проверим лог-файлы, robots.txt, дубли и пагинацию. Вы получите конкретный план оптимизации краулингового бюджета.

Технический SEO-аудит  ·  SEO-продвижение сайта

Денис Фещенко
Опытный специалист в сфере продвижения бизнеса в соцсетях и поисковых системах. Работаю с Instagram, TikTok, Telegram, YouTube и Google Ads, помогая компаниям привлекать целевую аудиторию, строить имидж и увеличивать продажи. Более 7 лет в digital-маркетинге. Автор практических руководств и статей по SMM, SEO и PPC.