В корзине пусто!
Краулинговый бюджет — лимит страниц, которые Googlebot обходит на вашем сайте за сутки. Для магазинов и порталов от 10 000 страниц его нехватка напрямую блокирует индексацию новых товаров. Ниже — кейс, инструменты и конкретные шаги.
Содержание статьи
- Что такое краулинговый бюджет и из чего он состоит
- Для кого это критично: размер сайта и приоритеты
- Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней
- Что съедает краулинговый бюджет
- Как анализировать: GSC Crawl Stats и лог-файлы
- Robots.txt — первый инструмент экономии
- Canonical и noindex: тонкая настройка
- Таблица: размер сайта vs рекомендованный подход
- Часто задаваемые вопросы
Что такое краулинговый бюджет и из чего он состоит
Googlebot не обходит весь интернет равномерно. Каждый сайт получает определённую «квоту» — количество HTTP-запросов, которое бот готов сделать за день. Google официально называет это crawl budget.
Он состоит из двух компонентов:
- Crawl rate limit — максимальная скорость краулинга без риска перегрузить сервер. Google повышает или снижает её в зависимости от времени ответа сервера. Если сайт отвечает за 200 мс — бот краулит агрессивнее; если за 2 секунды — тормозит.
- Crawl demand — спрос на краулинг, который определяется популярностью страниц в поиске и частотой обновления контента. Новая страница с беклинками будет проиндексирована раньше, чем старая пустая.
Реальный бюджет = минимум из этих двух значений. Если сервер медленный — бот обходит меньше страниц, даже если спрос велик. Если контент редко обновляется — спрос низкий, и бот приходит редко.
Google официально подтвердил концепцию crawl budget в документации для Search Central. Источник: developers.google.com.
Для кого это критично: размер сайта и приоритеты
Google прямо указывает: для небольших сайтов (до 1 000 качественных страниц) краулинговый бюджет не является проблемой — бот успевает обойти всё. Ситуация кардинально меняется, как только сайт переходит определённый порог.
Из нашей практики продвижения e-commerce проектов, проблема становится ощутимой при таких масштабах:
- 10 000–50 000 страниц — бюджет уже ограничен, фильтры и пагинация «крадут» его часть
- 50 000–200 000 страниц — без управления бюджетом новые товары могут ждать индексации неделями
- 200 000+ страниц — необходима системная стратегия: приоритизация, закрытие дублей, мониторинг
Особенно уязвимы: интернет-магазины с URL-фильтрами (цвет, размер, бренд), новостные порталы с архивными страницами, агрегаторы с параметрическими URL.
Кейс: интернет-магазин 15 000 SKU — бюджет х3 за 90 дней
К нам обратился клиент с интернет-магазином бытовой техники: 15 000 активных SKU, столько же архивных товаров и генерируемые URL для каждой комбинации фильтров. GSC показывал 48 000+ сканируемых URL в месяц, но в индексе находилось лишь около 9 000 товарных страниц.
Диагностика через лог-файлы показала: 58–62% запросов Googlebot тратилось на URL вида /catalog/televisions/?brand=Samsung&color=black&diagonal=55. Реальные страницы товаров, блог и категории получали меньше 40% бюджета.
Работы провели в три этапа:
- Аудит URL-пространства — собрали все паттерны URL из лог-файлов и разбили на группы: товары, категории, фильтры, пагинация, UTM-параметры.
- Закрытие мусорных URL — в robots.txt добавили Disallow для паттернов фильтров (
Disallow: /*?*color=,Disallow: /*?*brand=и т.д.), пагинацию категорий закрыли canonical на первую страницу. - Ускорение сервера — перешли на Redis-кеширование, время ответа снизилось с 1,8 с до 380 мс.
Результат через 90 дней: количество проиндексированных товарных страниц выросло с 9 000 до 28 500 — в 3,2 раза. Органический трафик на товарные страницы +74% по сравнению с базовым месяцем.
Что съедает краулинговый бюджет
Большинство сайтов тратят значительную часть бюджета на URL, которые не имеют никакой ценности для поисковой выдачи. По данным нашего аудита 50+ e-commerce проектов, типичные «пожиратели» распределяются так:
- URL-параметры фильтров и сортировки —
?sort=price_asc&page=3&color=red. Одна категория может генерировать тысячи уникальных URL, каждый из которых Googlebot пытается обойти. - Пагинация без canonical — страницы
/catalog/?page=47без ссылки на первую страницу. Бот краулит все 200 страниц пагинации вместо того, чтобы сосредоточиться на товарах. - Дубли контента — страницы с
wwwи без, HTTP и HTTPS версии, с trailing slash и без. Каждый дубль съедает бюджет. - Тонкий контент — пустые категории, страницы тегов с 1–2 товарами, архивные URL удалённых товаров, возвращающие 200 OK вместо 404.
- Session ID и UTM-параметры в URL —
?session_id=abc123или?utm_source=google, доступные для сканирования. - Бесконечный скролл без пагинации — если JS генерирует новые URL при скролле, а сервер их отдаёт напрямую.
Как анализировать: GSC Crawl Stats и лог-файлы
Есть два уровня анализа краулингового бюджета: базовый (через GSC) и детальный (через лог-файлы сервера).
Google Search Console — Crawl Stats
Путь: GSC → Настройки (шестерня в нижнем левом углу) → Статистика сканирования. Здесь вы увидите:
- Количество запросов в день — сколько URL обходит Googlebot. Если цифра значительно меньше числа ваших страниц — есть проблема.
- Средний размер ответа в байтах — подозрительные всплески могут означать тяжёлые страницы.
- Среднее время ответа — больше 500 мс регулярно снижает crawl rate limit.
GSC также показывает краулинг по типу ответа (2xx, 3xx, 4xx, 5xx). Большое количество 3xx редиректов или 4xx страниц в ежедневном краулинге — прямая потеря бюджета.
Как настроить и читать все отчёты GSC для SEO-анализа — в нашем полном гайде по Google Search Console.
Анализ лог-файлов сервера
Это более детальный уровень, недоступный через интерфейс GSC. Лог-файл Apache или Nginx содержит каждый запрос с User-Agent. Алгоритм анализа:
- Выгрузите логи за последние 30 дней (обычно через cPanel, Plesk или SSH).
- Отфильтруйте строки с
Googlebotв User-Agent:grep "Googlebot" access.log - Подсчитайте запросы по URL-паттернам — сколько запросов на фильтры, товары, категории, статические ресурсы.
- Найдите аномалии — URL, которые Googlebot обходит 50+ раз в месяц (признак постоянного переиндексирования или мягких 404).
Удобные инструменты для парсинга логов: Screaming Frog Log File Analyser (Windows), GoAccess (Linux/CLI), или специализированный Semrush Log File Analyzer.
Robots.txt — первый инструмент экономии
Robots.txt — самый быстрый способ освободить бюджет. Googlebot читает его при каждом визите и не тратит запросы на запрещённые URL. Но есть нюанс: закрытые в robots.txt URL всё равно могут попасть в индекс через внешние ссылки — без noindex они просто не будут иметь контента, но останутся в индексе как «заблокированные роботом».
Типичные блоки для e-commerce в robots.txt:
User-agent: * # Параметры фильтрации Disallow: /*?*sort= Disallow: /*?*color= Disallow: /*?*brand= Disallow: /*?*size= # Сессионные параметры Disallow: /*?*session_id= Disallow: /*?*PHPSESSID= # UTM и реклама Disallow: /*?*utm_ # Админка и личный кабинет Disallow: /admin/ Disallow: /account/ Disallow: /cart/ Disallow: /checkout/
Для проверки корректности robots.txt используйте инструмент Google Search Console: GSC → Настройки → тестер robots.txt. Он показывает, какие URL блокируются для Googlebot и для других ботов.
Canonical и noindex: тонкая настройка
Robots.txt действует на уровне сканирования — бот даже не заходит на страницу. Canonical и noindex — инструменты следующего уровня: бот заходит, но понимает, что страницу не нужно индексировать или что это дубль основного URL.
Подробнее о правилах настройки canonical и типичных ошибках — в нашей статье о канонических тегах.
Canonical — для дублей и параметров
Добавьте canonical на все страницы с параметрами, указывающий на «чистую» версию URL:
<!-- На странице /catalog/phones/?sort=price --> <link rel="canonical" href="https://example.com/catalog/phones/" />
Canonical подходит, когда страница с параметрами имеет реальную ценность для пользователя (например, полноценная категория по бренду), но вы не хотите, чтобы она конкурировала с основной.
Noindex — для тонкого контента и служебных страниц
Мета-тег <meta name="robots" content="noindex, follow"> указывает Google не включать страницу в индекс, но позволяет переходить по ссылкам. Это важно для:
- Страниц поиска по сайту (
/search/?q=телефон) - Пустых категорий и страниц тегов
- Страниц благодарности после формы (
/thank-you/) - Архивных страниц удалённых товаров, где 404 нельзя поставить по техническим причинам
Разница между canonical и noindex: canonical говорит «это дубль, основной там», noindex говорит «не индексируй вообще». Для фильтров без беклинков — robots.txt или noindex. Для дублей с беклинками — canonical.
Таблица: размер сайта vs рекомендованный подход
| Размер сайта | Типичный дневной бюджет | Приоритетные действия | Критичные проблемы |
|---|---|---|---|
| До 1 000 страниц | Неограниченный практически | Качество контента, скорость | Бюджет не является проблемой |
| 1 000–10 000 | 1 000–5 000 URL/день | Canonical для дублей, sitemap | URL-параметры без контроля |
| 10 000–50 000 | 2 000–15 000 URL/день | Robots.txt для фильтров, скорость сервера | Пагинация, тонкий контент |
| 50 000–200 000 | 10 000–50 000 URL/день | Анализ логов, приоритизация разделов | Дубли, архивные товары, 404-зомби |
| 200 000+ | От 50 000 URL/день | Системный crawl management, CDN, edge caching | Любая из вышеперечисленных в комплексе |
Если ваш сайт нуждается в техническом SEO-аудите, анализ краулингового бюджета — обязательный его элемент. Мы проверяем лог-файлы, robots.txt, дубли и пагинацию как часть комплексной SEO-стратегии продвижения.
На практике
Украинская доска объявлений о работе — 2,4 млн активных вакансий, новые поступают каждые 15 минут — обратилась с тревожным показателем: Googlebot обходил около 12 000 страниц в сутки. При базе в 2,4 млн объявлений это означало, что подавляющая часть контента Google практически не видел.
GSC Crawl Stats подтверждал: среднее время ответа сервера держалось на уровне 2,3 секунды, дневной объём запросов не рос уже четыре месяца. В индексе находилось около 180 000 страниц вакансий — менее 8% от реального каталога.
Анализ лог-файлов через Screaming Frog Log File Analyser показал причину: бот застревал на 800 000 параметрических URL фильтров — /jobs?city=kyiv&salary=30000&type=part-time и десятки тысяч аналогичных комбинаций. После закрытия всех паттернов фильтров в robots.txt (Disallow: /jobs?city=, Disallow: /jobs?salary= и т.д.) бюджет перераспределился на реальные страницы вакансий.
GSC зафиксировал рост ежедневных запросов с 12 000 до 74 000. Количество проиндексированных вакансий выросло с 180 000 до 940 000 за 8 недель.
Критичный вывод для агрегаторов с быстрым обновлением: если вакансия живёт 3–5 дней, а бот приходит на неё через три недели — она уже не актуальна в момент индексации. Закрытие фильтров здесь важнее любой ссылочной работы.
Часто задаваемые вопросы
Что такое краулинговый бюджет Google?
Краулинговый бюджет — количество страниц, которые Googlebot готов обойти на вашем сайте за сутки. Складывается из crawl rate limit (максимальная скорость без перегрузки сервера) и crawl demand (спрос на основе популярности и обновлений контента).
Для каких сайтов краулинговый бюджет критичен?
Краулинговый бюджет критичен для сайтов от 10 000 страниц: интернет-магазины с большим каталогом, новостные порталы, агрегаторы. Для небольших сайтов до 1 000 страниц Google, как правило, индексирует всё без ограничений.
Как закрыть URL-параметры от краулинга?
Используйте Disallow в robots.txt для типичных паттернов (например, Disallow: /*?sort=). Для точечного контроля — тег noindex или canonical на страницы с параметрами. Настройка параметров в старом GSC больше недоступна.
Где смотреть статистику краулинга сайта?
В Google Search Console: Настройки → Статистика сканирования (Crawl Stats). Там видно количество запросов в день, средний размер ответа и время ответа. Для детального анализа — лог-файлы сервера, где фильтруем запросы от Googlebot.
Не знаете, сколько бюджета тратится впустую?
Мы проведём технический аудит сайта: проверим лог-файлы, robots.txt, дубли и пагинацию. Вы получите конкретный план оптимизации краулингового бюджета.


