Краулинговый бюджет (Crawl Budget): как ускорить индексацию и увеличить охват Googlebot

Краулинговый бюджет — лимит страниц, которые Googlebot обходит на вашем сайте за сутки. Для магазинов и порталов от 10 000 страниц его нехватка напрямую блокирует индексацию новых товаров. Ниже — кейс, инструменты и конкретные шаги.

Содержание статьи

Что такое краулинговый бюджет и из чего он состоит
Для кого это критично: размер сайта и приоритеты
Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней
Что съедает краулинговый бюджет
Как анализировать: GSC Crawl Stats и лог-файлы
Robots.txt — первый инструмент экономии
Canonical и noindex: тонкая настройка
Таблица: размер сайта vs рекомендованный подход
Часто задаваемые вопросы

Что такое краулинговый бюджет и из чего он состоит

Googlebot не обходит весь интернет равномерно. Каждый сайт получает определённую «квоту» — количество HTTP-запросов, которое бот готов сделать за день. Google официально называет это crawl budget.

Он состоит из двух компонентов:

Crawl rate limit — максимальная скорость краулинга без риска перегрузить сервер. Google повышает или снижает её в зависимости от времени ответа сервера. Если сайт отвечает за 200 мс — бот краулит агрессивнее; если за 2 секунды — тормозит.
Crawl demand — спрос на краулинг, который определяется популярностью страниц в поиске и частотой обновления контента. Новая страница с беклинками будет проиндексирована раньше, чем старая пустая.

Реальный бюджет = минимум из этих двух значений. Если сервер медленный — бот обходит меньше страниц, даже если спрос велик. Если контент редко обновляется — спрос низкий, и бот приходит редко.

Google официально подтвердил концепцию crawl budget в документации для Search Central. Источник: developers.google.com.

Схема: краулинговый бюджет формируется как минимум из двух составляющих

Для кого это критично: размер сайта и приоритеты

Google прямо указывает: для небольших сайтов (до 1 000 качественных страниц) краулинговый бюджет не является проблемой — бот успевает обойти всё. Ситуация кардинально меняется, как только сайт переходит определённый порог.

Из нашей практики продвижения e-commerce проектов, проблема становится ощутимой при таких масштабах:

10 000–50 000 страниц — бюджет уже ограничен, фильтры и пагинация «крадут» его часть
50 000–200 000 страниц — без управления бюджетом новые товары могут ждать индексации неделями
200 000+ страниц — необходима системная стратегия: приоритизация, закрытие дублей, мониторинг

Особенно уязвимы: интернет-магазины с URL-фильтрами (цвет, размер, бренд), новостные порталы с архивными страницами, агрегаторы с параметрическими URL.

Практический ориентир: если в GSC раздел «Страницы» показывает значительное число URL со статусом «Обнаружено — индексация отложена» — это первый признак нехватки бюджета.

Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней

К нам обратился клиент с интернет-магазином бытовой техники: 15 000 активных SKU, столько же архивных товаров и генерируемые URL для каждой комбинации фильтров. GSC показывал 48 000+ сканируемых URL в месяц, но в индексе находилось лишь около 9 000 товарных страниц.

Диагностика через лог-файлы показала: 58–62% запросов Googlebot тратилось на URL вида /catalog/televisions/?brand=Samsung&color=black&diagonal=55. Реальные страницы товаров, блог и категории получали меньше 40% бюджета.

Работы провели в три этапа:

Аудит URL-пространства — собрали все паттерны URL из лог-файлов и разбили на группы: товары, категории, фильтры, пагинация, UTM-параметры.
Закрытие мусорных URL — в robots.txt добавили Disallow для паттернов фильтров (Disallow: /*?*color=, Disallow: /*?*brand= и т.д.), пагинацию категорий закрыли canonical на первую страницу.
Ускорение сервера — перешли на Redis-кеширование, время ответа снизилось с 1,8 с до 380 мс.

Результат через 90 дней: количество проиндексированных товарных страниц выросло с 9 000 до 28 500 — в 3,2 раза. Органический трафик на товарные страницы +74% по сравнению с базовым месяцем.

Распределение бюджета до и после оптимизации: фильтры с 60% снизились до 8%, товары выросли с 30% до 66%

Таймлайн: от диагностики до результата — 90 дней системной работы

Что съедает краулинговый бюджет

Большинство сайтов тратят значительную часть бюджета на URL, которые не имеют никакой ценности для поисковой выдачи. По данным нашего аудита 50+ e-commerce проектов, типичные «пожиратели» распределяются так:

URL-параметры фильтров и сортировки — ?sort=price_asc&page=3&color=red. Одна категория может генерировать тысячи уникальных URL, каждый из которых Googlebot пытается обойти.
Пагинация без canonical — страницы /catalog/?page=47 без ссылки на первую страницу. Бот краулит все 200 страниц пагинации вместо того, чтобы сосредоточиться на товарах.
Дубли контента — страницы с www и без, HTTP и HTTPS версии, с trailing slash и без. Каждый дубль съедает бюджет.
Тонкий контент — пустые категории, страницы тегов с 1–2 товарами, архивные URL удалённых товаров, возвращающие 200 OK вместо 404.
Session ID и UTM-параметры в URL — ?session_id=abc123 или ?utm_source=google, доступные для сканирования.
Бесконечный скролл без пагинации — если JS генерирует новые URL при скролле, а сервер их отдаёт напрямую.

Быстрая проверка: зайдите в GSC → Индексирование → Страницы → посмотрите причины «Не в индексе». Если там сотни URL с параметрами — ваш бюджет тратится впустую.

Как анализировать: GSC Crawl Stats и лог-файлы

Есть два уровня анализа краулингового бюджета: базовый (через GSC) и детальный (через лог-файлы сервера).

Google Search Console — Crawl Stats

Путь: GSC → Настройки (шестерня в нижнем левом углу) → Статистика сканирования. Здесь вы увидите:

Количество запросов в день — сколько URL обходит Googlebot. Если цифра значительно меньше числа ваших страниц — есть проблема.
Средний размер ответа в байтах — подозрительные всплески могут означать тяжёлые страницы.
Среднее время ответа — больше 500 мс регулярно снижает crawl rate limit.

GSC также показывает краулинг по типу ответа (2xx, 3xx, 4xx, 5xx). Большое количество 3xx редиректов или 4xx страниц в ежедневном краулинге — прямая потеря бюджета.

Как настроить и читать все отчёты GSC для SEO-анализа — в нашем полном гайде по Google Search Console.

Анализ лог-файлов сервера

Это более детальный уровень, недоступный через интерфейс GSC. Лог-файл Apache или Nginx содержит каждый запрос с User-Agent. Алгоритм анализа:

Выгрузите логи за последние 30 дней (обычно через cPanel, Plesk или SSH).
Отфильтруйте строки с Googlebot в User-Agent: grep "Googlebot" access.log
Подсчитайте запросы по URL-паттернам — сколько запросов на фильтры, товары, категории, статические ресурсы.
Найдите аномалии — URL, которые Googlebot обходит 50+ раз в месяц (признак постоянного переиндексирования или мягких 404).

Удобные инструменты для парсинга логов: Screaming Frog Log File Analyser (Windows), GoAccess (Linux/CLI), или специализированный Semrush Log File Analyzer.

Robots.txt — первый инструмент экономии

Robots.txt — самый быстрый способ освободить бюджет. Googlebot читает его при каждом визите и не тратит запросы на запрещённые URL. Но есть нюанс: закрытые в robots.txt URL всё равно могут попасть в индекс через внешние ссылки — без noindex они просто не будут иметь контента, но останутся в индексе как «заблокированные роботом».

Типичные блоки для e-commerce в robots.txt:

User-agent: *
# Параметры фильтрации
Disallow: /*?*sort=
Disallow: /*?*color=
Disallow: /*?*brand=
Disallow: /*?*size=
# Сессионные параметры
Disallow: /*?*session_id=
Disallow: /*?*PHPSESSID=
# UTM и реклама
Disallow: /*?*utm_
# Админка и личный кабинет
Disallow: /admin/
Disallow: /account/
Disallow: /cart/
Disallow: /checkout/

Важно: не закрывайте через robots.txt страницы, на которые ведут важные внешние ссылки. Если на URL фильтра ссылается авторитетный сайт, лучше использовать noindex вместо Disallow — чтобы Google мог передать PageRank без краулинга контента.

Для проверки корректности robots.txt используйте инструмент Google Search Console: GSC → Настройки → тестер robots.txt. Он показывает, какие URL блокируются для Googlebot и для других ботов.

Canonical и noindex: тонкая настройка

Robots.txt действует на уровне сканирования — бот даже не заходит на страницу. Canonical и noindex — инструменты следующего уровня: бот заходит, но понимает, что страницу не нужно индексировать или что это дубль основного URL.

Подробнее о правилах настройки canonical и типичных ошибках — в нашей статье о канонических тегах.

Canonical — для дублей и параметров

Добавьте canonical на все страницы с параметрами, указывающий на «чистую» версию URL:

<!-- На странице /catalog/phones/?sort=price -->
<link rel="canonical" href="https://example.com/catalog/phones/" />

Canonical подходит, когда страница с параметрами имеет реальную ценность для пользователя (например, полноценная категория по бренду), но вы не хотите, чтобы она конкурировала с основной.

Noindex — для тонкого контента и служебных страниц

Мета-тег <meta name="robots" content="noindex, follow"> указывает Google не включать страницу в индекс, но позволяет переходить по ссылкам. Это важно для:

Страниц поиска по сайту (/search/?q=телефон)
Пустых категорий и страниц тегов
Страниц благодарности после формы (/thank-you/)
Архивных страниц удалённых товаров, где 404 нельзя поставить по техническим причинам

Разница между canonical и noindex: canonical говорит «это дубль, основной там», noindex говорит «не индексируй вообще». Для фильтров без беклинков — robots.txt или noindex. Для дублей с беклинками — canonical.

Таблица: размер сайта vs рекомендованный подход

Размер сайта	Типичный дневной бюджет	Приоритетные действия	Критичные проблемы
До 1 000 страниц	Неограниченный практически	Качество контента, скорость	Бюджет не является проблемой
1 000–10 000	1 000–5 000 URL/день	Canonical для дублей, sitemap	URL-параметры без контроля
10 000–50 000	2 000–15 000 URL/день	Robots.txt для фильтров, скорость сервера	Пагинация, тонкий контент
50 000–200 000	10 000–50 000 URL/день	Анализ логов, приоритизация разделов	Дубли, архивные товары, 404-зомби
200 000+	От 50 000 URL/день	Системный crawl management, CDN, edge caching	Любая из вышеперечисленных в комплексе

Воронка краулинга: до индекса доходит лишь 20–40% от всех известных URL без оптимизации бюджета

Если ваш сайт нуждается в техническом SEO-аудите, анализ краулингового бюджета — обязательный его элемент. Мы проверяем лог-файлы, robots.txt, дубли и пагинацию как часть комплексной SEO-стратегии продвижения.

На практике

Украинская доска объявлений о работе — 2,4 млн активных вакансий, новые поступают каждые 15 минут — обратилась с тревожным показателем: Googlebot обходил около 12 000 страниц в сутки. При базе в 2,4 млн объявлений это означало, что подавляющая часть контента Google практически не видел.

GSC Crawl Stats подтверждал: среднее время ответа сервера держалось на уровне 2,3 секунды, дневной объём запросов не рос уже четыре месяца. В индексе находилось около 180 000 страниц вакансий — менее 8% от реального каталога.

Анализ лог-файлов через Screaming Frog Log File Analyser показал причину: бот застревал на 800 000 параметрических URL фильтров — /jobs?city=kyiv&salary=30000&type=part-time и десятки тысяч аналогичных комбинаций. После закрытия всех паттернов фильтров в robots.txt (Disallow: /jobs?city=, Disallow: /jobs?salary= и т.д.) бюджет перераспределился на реальные страницы вакансий.

GSC зафиксировал рост ежедневных запросов с 12 000 до 74 000. Количество проиндексированных вакансий выросло с 180 000 до 940 000 за 8 недель.

Критичный вывод для агрегаторов с быстрым обновлением: если вакансия живёт 3–5 дней, а бот приходит на неё через три недели — она уже не актуальна в момент индексации. Закрытие фильтров здесь важнее любой ссылочной работы.

Часто задаваемые вопросы

Что такое краулинговый бюджет Google?

Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за сутки. Складывается из crawl rate limit (максимальная скорость без перегрузки сервера) и crawl demand (спрос на основе популярности и обновлений контента).

Для каких сайтов краулинговый бюджет критичен?

Краулинговый бюджет критичен для сайтов от 10 000 страниц: интернет-магазины с большим каталогом, новостные порталы, агрегаторы. Для небольших сайтов до 1 000 страниц Google, как правило, индексирует всё без ограничений.

Как закрыть URL-параметры от краулинга?

Используйте Disallow в robots.txt для типичных паттернов (например, Disallow: /*?sort=). Для точечного контроля — тег noindex или canonical на страницы с параметрами. Настройка параметров в старом GSC больше недоступна.

Где смотреть статистику краулинга сайта?

В Google Search Console: Настройки → Статистика сканирования (Crawl Stats). Там видно количество запросов в день, средний размер ответа и время ответа. Для детального анализа — лог-файлы сервера, где фильтруем запросы от Googlebot.

Не знаете, сколько бюджета тратится впустую?

Мы проведём технический аудит сайта: проверим лог-файлы, robots.txt, дубли и пагинацию. Вы получите конкретный план оптимизации краулингового бюджета.

Технический SEO-аудит · SEO-продвижение сайта

Краулинговый бюджет Google: полное руководство по оптимизации Crawl Budget

Что такое краулинговый бюджет и из чего он состоит

Для кого это критично: размер сайта и приоритеты

Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней

Что съедает краулинговый бюджет

Как анализировать: GSC Crawl Stats и лог-файлы

Google Search Console — Crawl Stats

Анализ лог-файлов сервера

Robots.txt — первый инструмент экономии

Canonical и noindex: тонкая настройка

Canonical — для дублей и параметров

Noindex — для тонкого контента и служебных страниц

Таблица: размер сайта vs рекомендованный подход

На практике

Часто задаваемые вопросы

Что такое краулинговый бюджет Google?

Для каких сайтов краулинговый бюджет критичен?

Как закрыть URL-параметры от краулинга?

Где смотреть статистику краулинга сайта?

Не знаете, сколько бюджета тратится впустую?