Meta robots і HTTP-заголовки керування індексацією сторінок

Після налаштування загального доступу до сайту за допомогою robots.txt часто виникає потреба керувати індексацією більш точно — на рівні окремих сторінок або типів контенту. Для цього використовуються метатеги robots і HTTP-заголовки, які передають пошуковим системам інструкції безпосередньо під час обробки сторінки.

На відміну від robots.txt, ці механізми працюють після сканування і дозволяють керувати тим, як саме сторінка буде оброблена і використана в індексі.

Роль meta robots у процесі індексації

Meta robots — це HTML-метатег, який розміщується в секції head документа і містить директиви для пошукових роботів. Він застосовується до конкретної сторінки і дозволяє керувати її індексацією незалежно від інших URL сайту.

Meta robots обробляється пошуковою системою після того, як сторінка була завантажена. Це означає, що доступ до сторінки має бути дозволений на рівні robots.txt.

Базовий синтаксис meta robots

Метатег robots має стандартну форму і може містити одну або декілька директив.

<meta name="robots" content="noindex, nofollow">

Директиви перераховуються через кому і застосовуються до поточної сторінки.

Основні директиви meta robots

index і noindex

Директива index дозволяє індексацію сторінки і використовується за замовчуванням. Директива noindex забороняє додавання сторінки до індексу пошукової системи.

На практиці noindex застосовується до сторінок, які не мають пошукової цінності або не повинні з’являтися в результатах пошуку.

follow і nofollow

Директива follow дозволяє пошуковому роботу переходити за посиланнями зі сторінки. nofollow забороняє передачу сигналів через посилання, розміщені на сторінці.

Ці директиви впливають не на індексацію самої сторінки, а на обробку її вихідних посилань.

none

Директива none є скороченим записом і еквівалентна комбінації noindex, nofollow.

Meta robots для окремих пошукових систем

Окрім загального метатега robots, можна використовувати теги, орієнтовані на конкретні пошукові системи. Найчастіше це застосовується для Google.

<meta name="googlebot" content="noindex">

У цьому випадку директива застосовується лише до Google, тоді як інші пошукові системи керуються загальними правилами.

HTTP-заголовок X-Robots-Tag

Для керування індексацією ресурсів, які не є HTML-сторінками, або у випадках, коли немає можливості змінити код сторінки, використовується HTTP-заголовок X-Robots-Tag.

Цей заголовок передає ті самі директиви, що й meta robots, але на рівні HTTP-відповіді сервера.

Приклад HTTP-заголовка X-Robots-Tag

X-Robots-Tag: noindex, nofollow

Такий заголовок може використовуватися для заборони індексації файлів, зображень або службових ресурсів.

Відправка X-Robots-Tag через PHP

У PHP HTTP-заголовки відправляються за допомогою функції header(). Це дозволяє динамічно керувати індексацією залежно від логіки сайту.

<?php
header("X-Robots-Tag: noindex, nofollow");
?>

Заголовок повинен бути відправлений до будь-якого виводу HTML-коду. В іншому випадку сервер поверне помилку або заголовок не буде застосований.

Коли доцільно використовувати HTTP-заголовки

HTTP-заголовки особливо корисні у випадках, коли необхідно керувати індексацією:

файлів, які не є HTML-документами;
сторінок, що генеруються автоматично;
контенту, доступ до якого визначається логікою сервера.

У таких ситуаціях використання meta robots може бути технічно неможливим або незручним.

Чого не варто робити при використанні meta robots і заголовків

Не рекомендується поєднувати заборону індексації через meta robots із блокуванням сторінки в robots.txt. У цьому випадку пошукова система не зможе побачити директиву noindex.

Також не варто використовувати noindex для сторінок, які вже активно ранжуються, без розуміння наслідків. Видалення таких сторінок з індексу може вплинути на загальну видимість сайту.

Місце meta robots у системі керування індексацією

Meta robots і HTTP-заголовки дозволяють точно керувати поведінкою пошукових систем на рівні окремих сторінок і ресурсів. Вони доповнюють robots.txt і sitemap, формуючи комплексну систему контролю індексації.

У наступній статті розділу розглядається використання канонічних URL для боротьби з дублюванням сторінок і сигналізації основної версії контенту.