
Пошукові системи не сканують веб без обмежень. Для кожного сайту вони виділяють певний обсяг ресурсів, у межах якого виконуються обходи сторінок. Цей обсяг зазвичай називають індексаційним бюджетом або crawl budget.
Розуміння того, як формується індексаційний бюджет і на що він витрачається, має особливе значення для великих сайтів: каталогів, інтернет-магазинів, маркетплейсів і медіаресурсів.
Crawl budget — це кількість URL, які пошуковий робот може і готовий просканувати на конкретному сайті за певний проміжок часу.
Він складається з двох основних компонентів:
Це максимальна швидкість, з якою бот може надсилати запити до сервера без шкоди для його стабільності.
На цей параметр впливають:
Це зацікавленість пошукової системи в конкретних сторінках.
Вона залежить від:
Для невеликих сайтів із кількома сотнями сторінок питання індексаційного бюджету зазвичай не є критичним.
Проблеми виникають, коли:
Пошуковий робот не відрізняє важливі сторінки від другорядних, доки не отримає відповідних сигналів.
Часто значна частина бюджету витрачається на:
Типові симптоми:
Першочергове завдання — зменшити кількість URL, які бот може сканувати без користі.
Для цього використовують:
XML sitemap повинна містити лише сторінки з реальною індексаційною цінністю.
Не варто включати:
Повільні сторінки знижують допустиму швидкість обходу.
Навіть без прямого зв’язку з ранжуванням, швидкість відповіді сервера впливає на те, скільки URL бот може обійти за один сеанс.
Помилки 5xx і нестабільна робота сервера призводять до зменшення crawl rate limit.
Для пошукових систем це сигнал, що сайт не готовий до активного сканування.
Швидкість індексації — це не лише питання кількості сканувань, а й того, які сторінки потрапляють в індекс першими.
На це впливають:
Індексаційний бюджет — це обмежений ресурс. Його неможливо збільшити напряму, але можна значно підвищити ефективність використання, прибравши технічний шум і зосередивши увагу пошукових систем на сторінках, які дійсно мають цінність.