Краулінговий бюджет Google: повний посібник з оптимізації Crawl Budget

Дата публікації: 12.06.2026 11:56

Краулінговий бюджет — ліміт сторінок, які Googlebot обходить на вашому сайті за добу. Для магазинів і порталів від 10 000 сторінок його нестача напряму блокує індексацію нових товарів і статей. Нижче — кейс, інструменти і конкретні дії для управління.


Що таке краулінговий бюджет і з чого він складається

Googlebot не обходить весь інтернет рівномірно. Кожен сайт отримує певну «квоту» — кількість HTTP-запитів, яку бот готовий зробити за день. Офіційно Google називає це crawl budget.

Він складається з двох компонентів:

  • Crawl rate limit — максимальна швидкість краулінгу без ризику перевантажити сервер. Google підвищує або знижує її залежно від часу відповіді вашого сервера. Якщо сайт відповідає за 200 мс — бот краулить агресивніше; якщо за 2 секунди — гальмує.
  • Crawl demand — попит на краулінг, який визначається популярністю сторінок у пошуку та частотою оновлення контенту. Нова сторінка з беклінками буде проіндексована раніше, ніж стара порожня.

Реальний бюджет = мінімум з цих двох значень. Якщо сервер повільний — бот обходить менше сторінок, навіть якщо попит великий. Якщо контент рідко оновлюється — попит низький, і бот приходить рідко.

Google офіційно підтвердив концепцію crawl budget у документації для Search Central. Джерело: developers.google.com.
Краулінговий бюджет: crawl rate limit + crawl demand Складові краулінгового бюджету Crawl Rate Limit (швидкість без перевантаження) + Час відповіді сервера + Стабільність хостингу + HTTP-статуси (5xx знижують) + Ліміти Google Search Console Crawl Demand (попит на сканування) + Популярність URL + Частота оновлень + Кількість беклінків + Глибина сторінки в структурі + Crawl Budget = min(Rate Limit, Demand)
Схема: краулінговий бюджет формується як мінімум з двох складових

Для кого це критично: розмір сайту і пріоритети

Google прямо зазначає: для невеликих сайтів (до 1 000 якісних сторінок) краулінговий бюджет не є проблемою — бот встигає обійти все. Але ситуація кардинально змінюється, щойно сайт переходить певний поріг.

З нашої практики просування e-commerce проєктів, проблема стає відчутною при таких масштабах:

  • 10 000–50 000 сторінок — бюджет уже обмежений, фільтри і пагінація «крадуть» частину ресурсу
  • 50 000–200 000 сторінок — без управління бюджетом нові товари можуть чекати на індексацію тижнями
  • 200 000+ сторінок — необхідна системна стратегія: пріоритизація, закриття дублів, моніторинг

Особливо вразливі: інтернет-магазини з URL-фільтрами (колір, розмір, бренд), новинні портали з архівними сторінками, агрегатори з параметричними URL.

Практичний орієнтир: якщо в GSC розділ «Сторінки» показує значну кількість URL у статусі «Виявлено — індексація відкладена» — це перша ознака нестачі бюджету.

Кейс: інтернет-магазин 15 000 SKU — бюджет х3 за 90 днів

До нас звернувся клієнт з інтернет-магазином побутової техніки: 15 000 активних SKU, ще стільки ж архівних товарів і генерований URL для кожної комбінації фільтрів. GSC показував 48 000+ сканованих URL на місяць, але в індексі знаходилося лише близько 9 000 товарних сторінок.

Діагностика через лог-файли показала: 58–62% запитів Googlebot витрачалося на URL виду /catalog/televisions/?brand=Samsung&color=black&diagonal=55. Реальні сторінки товарів, блог і категорії отримували менше 40% бюджету.

Ми провели роботи у три етапи:

  1. Аудит URL-простору — зібрали всі патерни URL з лог-файлів і розбили на групи: товари, категорії, фільтри, пагінація, UTM-параметри.
  2. Закриття сміттєвих URL — у robots.txt додали Disallow для патернів фільтрів (Disallow: /*?*color=, Disallow: /*?*brand= тощо), пагінацію категорій закрили canonical на першу сторінку.
  3. Прискорення сервера — перейшли на Redis-кешування, час відповіді знизився з 1,8 с до 380 мс.

Результат через 90 днів: кількість проіндексованих товарних сторінок зросла з 9 000 до 28 500 — у 3,2 раза. Органічний трафік на товарні сторінки +74% порівняно з базовим місяцем.

До/після: розподіл краулінгового бюджету після оптимізації Розподіл краулінгового бюджету: до та після оптимізації До оптимізації Після оптимізації 0% 20% 40% 60% 80% 60% 8% Фільтри 30% 66% Товари 14% 28% Категорії 5% 13% Блог
Розподіл бюджету до і після оптимізації: фільтри з 60% знизилися до 8%, товари зросли з 30% до 66%
Таймлайн кейсу: 90 днів від аудиту до результату Таймлайн кейсу: 90 днів від аудиту до результату День 1 Аудит URL і лог-файлів День 7 Robots.txt для фільтрів День 14 Redis-кеш, 380 мс відповідь День 30 GSC: ріст сканування товарів День 90 Індекс x3, трафік +74%
Таймлайн: від діагностики до результату — 90 днів системної роботи

Що з'їдає краулінговий бюджет

Більшість сайтів витрачають значну частину бюджету на URL, які не мають жодної цінності для пошукової видачі. З нашого аудиту 50+ e-commerce проєктів, типові «пожирачі» розподіляються так:

  • URL-параметри фільтрів і сортування?sort=price_asc&page=3&color=red. Одна категорія може генерувати тисячі унікальних URL, кожен з яких Googlebot намагається обійти.
  • Пагінація без canonical — сторінки /catalog/?page=47 без посилання на першу сторінку. Бот краулить усі 200 сторінок пагінації замість того, щоб зосередитися на товарах.
  • Дублі контенту — сторінки з www і без, HTTP і HTTPS версії, версії з trailing slash і без. Кожен дубль з'їдає бюджет.
  • Тонкий контент — порожні категорії, сторінки тегів з 1–2 товарами, архівні URL видалених товарів, що повертають 200 OK замість 404.
  • Session ID і UTM-параметри в URL?session_id=abc123 або ?utm_source=google доступні для сканування.
  • Нескінченний скрол без пагінації — якщо JS генерує нові URL при скролі, а сервер їх доступний напряму.
Швидка перевірка: зайдіть у GSC → Індексування → Сторінки → подивіться причини «Не в індексі». Якщо там сотні URL з параметрами — ваш бюджет витрачається марно.

Як аналізувати: GSC Crawl Stats і лог-файли

Є два рівні аналізу краулінгового бюджету: базовий (через GSC) і детальний (через лог-файли сервера).

Google Search Console — Crawl Stats

Шлях: GSC → Налаштування (шестерня в лівому нижньому куті) → Статистика сканування. Тут ви побачите:

  • Кількість запитів на день — скільки URL обходить Googlebot. Якщо цифра значно менша за кількість ваших сторінок — є проблема.
  • Середній розмір відповіді в байтах — підозрілі сплески можуть означати важкі сторінки.
  • Середній час відповіді — понад 500 мс регулярно знижує crawl rate limit.

GSC також показує краулінг за типом відповіді (2xx, 3xx, 4xx, 5xx). Велика кількість 3xx редиректів або 4xx сторінок у щоденному краулінгу — пряма втрата бюджету.

Як налаштувати і читати всі звіти GSC для SEO-аналізу — у нашому повному гайді по Google Search Console.

Аналіз лог-файлів сервера

Це детальніший рівень, недоступний через інтерфейс GSC. Лог-файл Apache або Nginx містить кожен запит із User-Agent. Алгоритм аналізу:

  1. Вивантажте логи за останні 30 днів (зазвичай через cPanel, Plesk або SSH).
  2. Відфільтруйте рядки з Googlebot в User-Agent: grep "Googlebot" access.log
  3. Підрахуйте запити за URL-патернами — скільки запитів на фільтри, товари, категорії, статичні ресурси.
  4. Знайдіть аномалії — URL, які Googlebot обходить по 50+ разів на місяць (ознака постійного переіндексування або м'яких 404).

Зручні інструменти для парсингу логів: Screaming Frog Log File Analyser (Windows), GoAccess (Linux/CLI), або спеціалізований Semrush Log File Analyzer.

Robots.txt — перший інструмент економії

Robots.txt — найшвидший спосіб звільнити бюджет. Googlebot читає його при кожному візиті і не витрачає запити на заборонені URL. Але є нюанс: закриті в robots.txt URL все одно можуть потрапити в індекс через зовнішні посилання — без noindex вони просто не матимуть контенту, але залишаться в індексі як «заблоковані роботом».

Типові блоки для e-commerce у robots.txt:

User-agent: *
# Параметри фільтрації
Disallow: /*?*sort=
Disallow: /*?*color=
Disallow: /*?*brand=
Disallow: /*?*size=
# Сесійні параметри
Disallow: /*?*session_id=
Disallow: /*?*PHPSESSID=
# UTM і реклама
Disallow: /*?*utm_
# Адмінка і кабінет
Disallow: /admin/
Disallow: /account/
Disallow: /cart/
Disallow: /checkout/
Важливо: не закривайте через robots.txt сторінки, на які ведуть важливі зовнішні посилання. Якщо на URL фільтра посилається авторитетний сайт, краще використати noindex замість Disallow — щоб Google зміг передати PageRank без краулінгу контенту.

Для перевірки коректності robots.txt використовуйте інструмент Google Search Console: GSC → Налаштування → robots.txt тестер. Він показує, які URL блокуються для Googlebot і яких — для інших ботів.

Canonical і noindex: тонке налаштування

Robots.txt діє на рівні сканування — бот навіть не заходить на сторінку. Canonical і noindex — інструменти наступного рівня: бот заходить, але розуміє, що сторінку не потрібно індексувати або що це дубль основного URL.

Детальніше про правила налаштування canonical і типові помилки — у нашій статті про канонічні теги.

Canonical — для дублів і параметрів

Додайте canonical на всі сторінки з параметрами, що вказує на «чисту» версію URL:

<!-- На сторінці /catalog/phones/?sort=price -->
<link rel="canonical" href="https://example.com/catalog/phones/" />

Canonical підходить, коли сторінка з параметрами має реальну цінність для користувача (наприклад, повноцінна категорія за брендом), але ви не хочете, щоб вона конкурувала з основною.

Noindex — для тонкого контенту і службових сторінок

Мета-тег <meta name="robots" content="noindex, follow"> вказує Google не включати сторінку в індекс, але дозволяє переходити за посиланнями. Це важливо для:

  • Сторінок пошуку по сайту (/search/?q=телефон)
  • Порожніх категорій і тегів
  • Сторінок подяки після форми (/thank-you/)
  • Архівних сторінок видалених товарів, де 404 не можна поставити з технічних причин
Різниця між canonical і noindex: canonical каже «це дубль, основний там», noindex каже «не індексуй взагалі». Для фільтрів без беклінків — robots.txt або noindex. Для дублів із беклінками — canonical.

Таблиця: розмір сайту vs рекомендований підхід

Розмір сайту Типовий добовий бюджет Пріоритетні дії Критичні проблеми
До 1 000 сторінок Необмежений практично Якість контенту, швидкість Бюджет не є проблемою
1 000–10 000 1 000–5 000 URL/день Canonical для дублів, sitemap URL-параметри без контролю
10 000–50 000 2 000–15 000 URL/день Robots.txt для фільтрів, швидкість сервера Пагінація, тонкий контент
50 000–200 000 10 000–50 000 URL/день Аналіз логів, пріоритизація розділів Дублі, архівні товари, 404-зомбі
200 000+ Від 50 000 URL/день Системний crawl management, CDN, edge caching Будь-яка з вищезазначених у комплексі
Воронка краулінгу Googlebot: від запиту до індексації Воронка краулінгу: від запиту бота до появи в індексі Всі відомі URL (з Sitemap, посилань, логів) Не заблоковані robots.txt В межах поточного бюджету Успішно просканованих (2xx) Потрапили в індекс 100% ~70-80% ~40-60% ~30-50% ~20-40%
Воронка краулінгу: до індексу доходить лише 20–40% від усіх відомих URL без оптимізації бюджету

Якщо ваш сайт потребує технічного SEO-аудиту, аналіз краулінгового бюджету — обов'язковий його елемент. Ми перевіряємо лог-файли, robots.txt, дублі та пагінацію як частину комплексної SEO-стратегії просування.


На практиці

Українська дошка оголошень про роботу — 2,4 млн активних вакансій, нові з'являються щогодини — звернулася з критичним симптомом: Googlebot обходив близько 12 000 сторінок на добу. Для бази у 2,4 млн оголошень це означало, що переважна більшість контенту залишалася поза увагою пошуковика місяцями.

GSC Crawl Stats підтверджував: середній час відповіді сервера тримався на рівні 2,3 секунди, а в індексі перебувало лише близько 180 000 сторінок вакансій — менше 8% реального каталогу.

Аналіз лог-файлів через Screaming Frog Log File Analyser виявив першопричину: бот застрявав на 800 000 параметричних URL фільтрів — /jobs?city=kyiv&salary=30000&type=part-time та десятки тисяч схожих комбінацій. Після закриття всіх паттернів фільтрів у robots.txt бюджет перерозподілився на реальні сторінки вакансій.

GSC зафіксував зростання щоденних запитів з 12 000 до 74 000. Кількість проіндексованих вакансій зросла з 180 000 до 940 000 за 8 тижнів — без жодного нового беклінка і без змін у контенті.

Ключовий висновок для агрегаторів із швидким оновленням: якщо вакансія живе 3–5 днів, а бот приходить до неї через три тижні — вона вже не актуальна в момент індексації. Закриття фільтрів тут важливіше за будь-яку посилальну роботу.

Часті запитання

Що таке краулінговий бюджет Google?

Краулінговий бюджет — кількість сторінок, які Googlebot готовий проіндексувати на вашому сайті за добу. Він складається з crawl rate limit (максимальна швидкість без перевантаження сервера) і crawl demand (попит на основі популярності та оновлень контенту).

Для яких сайтів краулінговий бюджет є критичним?

Краулінговий бюджет критично важливий для сайтів від 10 000 сторінок: інтернет-магазини з великим каталогом, новинні портали, агрегатори. Для малих сайтів (до 1 000 сторінок) Google зазвичай індексує все без обмежень.

Як закрити URL-параметри від краулінгу?

Використовуйте Disallow в robots.txt для типових патернів (наприклад, Disallow: /*?sort=). Для більш точного контролю — тег noindex або canonical на сторінки з параметрами. Налаштування параметрів у старому GSC більше недоступне.

Де подивитися статистику краулінгу сайту?

В Google Search Console: Налаштування → Статистика сканування (Crawl Stats). Там видно кількість запитів на день, середній розмір відповіді та час відповіді. Для детального аналізу — лог-файли сервера, де фільтруємо запити від Googlebot.

Не знаєте, скільки бюджету витрачається марно?

Ми проведемо технічний аудит сайту: перевіримо лог-файли, robots.txt, дублі та пагінацію. Ви отримаєте конкретний план оптимізації краулінгового бюджету.

Технічний SEO-аудит  ·  SEO-просування сайту

Денис Фещенко
Досвідчений фахівець у сфері просування бізнесу в соцмережах та пошукових системах. Працюю з Instagram, TikTok, Telegram, YouTube та Google Ads, допомагаючи компаніям залучати цільову аудиторію, будувати імідж та збільшувати продажі. Понад 7 років у digital-маркетингу. Автор практичних посібників та статей із SMM, SEO та PPC