
Файл robots.txt зберігається в форматі тексту на сервері. Він складається з латинських символів і знаків, за допомогою яких створюються команди для роботів про те, які сторінки потрібно індексувати, а які не можна. Robots.txt створюється за стандартним синтаксисом, його директиви розуміють роботи всіх пошукових систем. Якщо не використовувати цей файл, всі сторінки сайту будуть проскановані без розбору. Це може негативно позначитися на результатах пошукової видачі.
1. Що таке robots.txt
Це файл, в якому знаходиться звичайний текст, що складається мінімум з двох рядків. Точна кількість слів визначається в індивідуальних потребах заборонити або дозволити обхід конкретних сторінок. Кожен рядок файлу – одна команда в формі директиви. Вона описує конкретний розділ, категорію або сторінку. Кожен розділ починається з нового рядка.
Robots.txt редагується в будь-який час, якщо виникає потреба закрити від індексу дублі, персональні дані, призначені для користувача угоди або нові сторінки. Для цього він вивантажується через файловий менеджер і редагується на комп’ютері. Після внесення правок оновлений robots.txt потрібно знову завантажити на сервер і перевірити його за посиланням yoursite.ua/robots.txt , де yoursite.ua – назва сайту.
Файл також можна створити для заборони або дозволу індексації відразу всіх сторінок сайту. З його допомогою також можна приховувати розділи ресурсу для різних роботів. Якщо прописані директиви стосуються всіх роботів, в кінці першого рядка ставиться знак «*». При зверненні до конкретного пошуковика необхідно прописати його назву в першому рядку директиви User-agent.
User-agent: *
Allow: / - допустити сканування всіх сторінок
Приклад robots.txt:
або так
User-agent: Google
Disallow: / - заборонити сканування всіх сторінок
1.1. Для чого потрібен robots.txt
- визначення переліку індексованих сторінок;
- зменшення навантаження на сервер при обході сайту пошуковими роботами;
- вказівка головного дзеркала сайту;
- вказівка шляху до карти сайту (Sitemap);
- визначення додаткових правил обходу сторінок через директиви.
Іноді роботи не враховують директиви з robots.txt. Таке трапляється через помилки в синтаксисі. Найбільш поширені:
- розмір файлу перевищує (512 КБ для Google);
- опечатки в прописаних директивах або посиланнях;
- формат файлу не є текстовим і / або містить неприпустимі символи;
- файл може застосовуватися в разі запиту до сервера.
Час від часу слід перевіряти коректність і доступ до robots.txt, а також дослідити його на помилки в синтаксисі. До речі, в деяких CMS і хостинг-панелях є можливість редагувати файл з адмінки.
2. Синтаксис robots.txt
Синтаксис файлу складається з обов’язкових і необов’язкових директив. Для правильного зчитування роботами їх потрібно прописувати в певній послідовності: перша директива в кожному розділі – User Agent, далі Disallow, Allow, в кінці – головне дзеркало і карта сайту.
Незважаючи на стандартні правила створення, пошукові боти по-різному зчитують інформацію з файлу. Наприклад, заборона індексації параметрів сторінки розуміє тільки Yandex, а Googlebot пропустить цей рядок.
Важливе правило – не допустити помилки в директивах. Один невірний символ може привести до некоректної індексації.
Щоб мінімізувати ризик помилок, дотримуйтеся основних правил складання синтаксису:
- в одному рядку прописується максимум одна директива;
- кожна директива – новий рядок;
- на початку рядків і між рядками не повинно бути пробілів;
- в описі параметра не повинно бути переносів на інший рядок;
- в назві robots.txt і параметрах директив не використовуються символи верхнього регістру;
- присутній знак «/» перед кожною Директорією. Приклад: / products;
- в описі директив можуть бути символи тільки латинського алфавіту;
- тільки один параметр в директивах Allow і Disallow;
- Disallow без опису рівнозначно Allow / – дозволити обхід всіх сторінок;
- Allow без опису той же, що і robots.txt disallow / – означає заборону індексації всіх сторінок.
2.1. Основні директиви синтаксису
1. User-agent – обов’язкова директива, вказується в початковому рядку і означає звернення до пошукових ботів. Приклад:

2. Disallow – заборона на обхід папок, розділів або окремих сторінок сайту. Приклад:

3. Allow – індексація всіх сторінок і їх розділів. Приклад:

4. Noindex – заборона на індексацію частини контенту на сторінці. Відрізняється від Disallow тим, що Noindex використовується безпосередньо в коді сторінки і виглядає так:

5. Clean-param – заборона на індексацію параметрів в адресі сторінки. Цю директиву видно тільки Яндекс-боту. Наприклад, з її допомогою можна закрити від індексу UTM-мітки:

6. Crawl-Delay – визначення мінімального періоду часу між обходами сторінок. Наприклад:

7. Host – вказівка основного дзеркала сайту. Приклад:

8. Sitemap – розташування карти сайту. Приклад:

3. Як створити robots.txt
Файл robots.txt створюється в текстовому редакторі на комп’ютері або генерується автоматично за допомогою онлайн сервісів. Відредагувати його можна в звичайному блокноті. Приклад robots.txt:
User-agent: *
Disallow: / bin / - НЕ індексувати посилання з товарного кошика;
Disallow: / search / - НЕ індексувати посилання з пошукового рядка;
Disallow: / admin / - НЕ індексувати посилання адміністративні елементи;
Sitemap: http://yoursite.com/sitemap - адреса карти сайту;
У директивах іноді додають коментарі для веб-майстрів, які вставляють в файл після знака # з нового рядка. Роботи не враховують ці дані. Приклад robots.txt з коментарем:
User-agent: *
Allow: /
Host: www.yoursite.com
# Через 3 дня головне дзеркало буде замінено
Якщо ви сумніваєтеся або не маєте можливості створити файл самостійно, скористайтеся віртуальним сервісом. Генератори robots.txt створюють файли по заданих параметрах, які потрібно відразу прописати. Приклади інструментів для генерації: pr-cy і Seolib .
4. Як перевірити robots.txt
Протестувати готовий документ можна в сервісах Google і Yandex . Перевірка robots.txt можлива лише після завантаження остаточної версії в корінь сайту. Якщо файл не завантажений в кореневій каталог, сервіс видасть помилку.
При виявленні і успішній перевірці файлу з’являється відповідне повідомлення:

Протестувати robots.txt можна в Netpeak Spider . Для цього:
- Відкрийте «Налаштування» → «Віртуальний robots.txt», відзначте пункт «Використовувати віртуальний robots.txt».
- Помістіть вміст файлу у вікно і збережіть налаштування.
- В поле «Початковий URL» введіть домен сайту і почніть сканування.
- Дані, актуальні для прописаного вами віртуального файлу, ви побачите в основній таблиці.
Підводимо підсумки
Файл robots.txt складається з текстових директив і зберігається в корені сайту на сервері. Він використовується для дозволу і заборони індексації пошуковими системами сторінок, розділів, каталогів і окремих параметрів.
Додатково в файлі можна прописати головне дзеркало і посилання на карту сайту. Умови індексації можуть стосуватися всіх пошуків або кожного окремо. Через robots.txt можна задати унікальні умови для кожного пошукача.
При складанні файлу важливо дотримуватися стандартних правил. Створити його можна вручну або за допомогою онлайн-генератора. Для перевірки і тестування готового файлу використовуються онлайн-сервіси або десктопні програми, наприклад Netpeak Spider.