
Файл robots.txt використовується для керування доступом пошукових роботів до розділів і сторінок сайту. Він не впливає на ранжування напряму, але визначає, які URL можуть бути відскановані пошуковими системами, а які — ні.
Robots.txt є одним із базових технічних інструментів індексації і працює на рівні доступу, ще до аналізу вмісту сторінок. Неправильна конфігурація цього файлу може призвести до повної або часткової втрати видимості сайту в пошуку.
Robots.txt — це текстовий файл, який розміщується в корені сайту і містить набір директив для пошукових роботів. Перед скануванням сайту робот перевіряє наявність цього файлу і аналізує правила доступу.
Файл robots.txt не забороняє індексацію напряму. Він лише керує процесом сканування. Якщо сторінка вже відома пошуковій системі з інших джерел, вона може залишатися в індексі навіть при забороні сканування.
Файл robots.txt повинен розміщуватися строго в корені домену і бути доступним за адресою:
https://example.com/robots.txt
Robots.txt є доменоспецифічним. Для кожного піддомену використовується окремий файл. Правила з основного домену не застосовуються автоматично до піддоменів.
Файл повинен бути доступним для сканування і повертати коректний HTTP-код відповіді. У разі його відсутності або помилки доступу пошукові системи зазвичай вважають, що обмежень немає.
Директива визначає, для якого пошукового робота застосовуються наступні правила. Значенням може бути як конкретний робот, так і символ *, який означає всі пошукові системи.
Вказує шлях, доступ до якого заборонений для сканування. Якщо значення порожнє, доступ дозволений до всіх сторінок.
Дозволяє сканування окремих шляхів усередині заборонених директорій. Використовується для більш гнучкого керування доступом.
Містить повний шлях до файлу sitemap. Ця директива не прив’язана до конкретного user-agent і може бути вказана окремо.
Нижче наведено приклад коректної і безпечної конфігурації robots.txt, яка підходить для більшості сайтів і не обмежує індексацію важливих сторінок.
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
У цьому випадку:
Google підтримує стандартні директиви robots.txt і не потребує спеціальних параметрів для базової роботи. У деяких випадках може використовуватися окремий блок правил для Googlebot.
Приклад окремої секції для Google:
User-agent: Googlebot Disallow: /admin/ Allow: /admin/help/
Такий підхід використовується, коли необхідно точково обмежити доступ Google до окремих розділів сайту, не впливаючи на інших пошукових роботів.
Bing також підтримує стандарт robots.txt і працює з директивами User-agent, Disallow та Allow. Для нього можна використовувати окремий блок правил.
Приклад конфігурації для Bing:
User-agent: Bingbot Disallow: /private/
Як і у випадку з Google, такі правила застосовуються лише тоді, коли є потреба у відмінній логіці доступу для конкретного пошукового робота.
Robots.txt є потужним, але грубим інструментом керування. Він не підходить для точного контролю індексації окремих сторінок і не замінює метатеги або HTTP-заголовки.
Не рекомендується використовувати robots.txt для приховування конфіденційної інформації. Заборона сканування не означає, що URL не може бути виявлений з інших джерел.
Також не варто блокувати службові ресурси без розуміння наслідків. Надмірні або необґрунтовані обмеження можуть ускладнити обробку сайту пошуковими системами.
Robots.txt працює на початковому етапі взаємодії пошукової системи з сайтом і визначає, які розділи можуть бути відскановані. Він доповнює sitemap і інші механізми керування індексацією, але не замінює їх.
Для більш точного контролю поведінки пошукових систем використовуються метатеги та HTTP-заголовки, які розглядаються в наступних матеріалах цього розділу.