Роботи пошукових систем при вході на сайт насамперед звертаються до файлу robots.txt, щоб отримати інструкції до подальшої дії та дізнатися, які файли та директорії заборонені до індексування. Тому веб-майстру конче необхідно знати, як правильно написати цей файл, оскільки помилки в ньому можуть призвести до дуже плачевних наслідків. Ще раз повторимося і уточнимо, що файл robots.txt нічого не дозволяє до індексації, а лише забороняє. І ще один аспект. Він не є стовідсотковою вказівкою для пошукових роботів. Швидше можна сказати, що він є рекомендаційним документом.
Файл robots.txt – звичайний файл з розширенням txt, який створюють за допомогою Блокнота і розташовують у кореневій директорії конкретного сайту і містить інструкції з індексації для пошукових роботів. Інструкції можуть бути, як і загальні, так і для конкретних роботів окремі.
А тепер трохи докладніше про файл robots.txt.
Основні правила при створенні та завантаженні файлу robots. txt:
- не плутати назву, тобто називати файл robots.txt, а не robot.txt і так далі.
- писати назву файлу robots.txt обов'язково в нижньому регістрі, тобто robots.txt, а не Robots.txt і ROBOTS.TXT і так далі.
- розміщувати файл robots.txt саме в кореневій директорії сайту, а не в якомусь іншому місці.
Також дуже важливий грамотний зміст файлу robots.txt, тому розповім докладніше про цей момент. Помилки у змісті цього файлу можуть призвести до того, що сайт або окремі його директорії або файли не будуть проіндексовані.
Отже, з чого складається зміст файлу robots.txt? Ось зразковий його зміст:
User-agent: *
Disallow: /adminka/
Disallow: /image/
Давайте розберемо зміст цього файлу.
Перший рядок «User-agent: *». Зірочка в інструкції User-agent означає, що ця інструкція стосується всіх пошукових робіт. Якщо інструкція призначена для конкретного пошукового робота, необхідно прописати його ім'я.
Другий і третій рядок забороняють індексацію директорій adminka і image. Зверніть увагу, що кожну заборонену до індексації директорію прописано в окремому рядку. Поєднання їх в одному рядку є грубою помилкою. Також не можна переносити рядки в межах однієї інструкції.
Для пошукового робота Яндекса актуально також писати директиву Host. Ця директива вказує на основне дзеркало цього сайту. У цій директиві можна прописати адресу сайту або з www або без www. Яка різниця спитаєте ви? Та ніякої. Можна вказувати і так, і так. Все залежить тільки від вашого бажання. Жодних обмежень та утисків для вашого сайту не буде. Правильно написати директиву Host потрібно так:
User-agent: Yandex
Disallow: /adminka/
Host: www.site.ru
А тепер наведу конкретні приклади написання файлу robots.txt для різних завдань.
1. Заборонити весь сайт до індексації всіма пошуковими роботами.
User-agent: *
Disallow: /
2. Не забороняти весь сайт до індексації всіма пошуковими роботами.
User-agent: *
Disallow:
3. Заборонити весь сайт до індексації одним пошуковим роботом (наприклад, SeoBot).
User-agent: SeoBot
Disallow: /
4. Не забороняти весь сайт до індексації одному роботу (наприклад, SeoBot) та заборонити до індексації всім іншим пошуковим роботам.
User-agent: SeoBot
Disallow:
User -agent: *
Disallow: /
5. Заборонити кілька директорій до індексації всіма пошуковими роботами.
User-agent: *
Disallow: /directoria-1/
Disallow: /directoria-1/
Disallow: /hidedirectoria/
6. Заборонити кілька файлів до індексації всіма пошуковими роботами.
User-agent: *
Disallow: /hide.php
Disallow: /secret.html
Яких помилок слід не допускати в написанні вмісту файлу robots.txt?
Ось основні правила написання вмісту файлу robots.txt:
1. Писати вміст файлу потрібно лише в нижньому регістрі.
2. У кожній інструкції Disallow вказувати лише одну директорію або один файл.
3. Не змінювати місцями інструкцію Disallow та User-agent.
4. Не залишайте порожній рядок User-agent. Якщо інструкція відноситься до всіх пошукових робіт, то писати зірочку, а якщо до конкретного пошукового роботу, то писати його ім'я.
5. У директиві Host (для Яндекса) адресу писати потрібно без протоколу http:// і без слішу, що закриває /.
6. Не потрібно використовувати символи підстановки в інструкції Disallow у вигляді зірочки та інших символів.
7. Намагатися не писати коментарі до інструкцій в одному рядку з інструкціями.
8. Не можна пропускати інструкцію Disallow. Якщо ви не збираєтеся нічого забороняти до індексації, залиште цю інструкціюпорожній.
9. При забороні до індексації директорій обов'язково прописувати сліші.
10. Найголовніше правило – перш ніж залити файл robots.txt на сервер сайту потрібно сто разів його перевірити і перевіряти ще раз, щоб уникнути подальших непорозумінь.