файл robots.txt

Якщо ви коли-небудь цікавилися статистикою заходів на свій сайт, то обов'язково повинні були помітити, що періодично його відвідують різні пошукові системи. Природно, діють це ніяк не люди, однак спеціальні програми, які найчастіше називають "роботами". "Роботи" переглядають сайт також індексують веб-ресурс, щоб потім його дозволено було знайти за допомогою того пошукача, чий "робот" займався індексацією.

Всі "роботи" перед індексацією ресурсу шукають в кореневому каталозі вашого сайту файл з ім'ям robots.txt. цей файл містить інформацію про те, які файли "роботи" можуть індексувати, проте які ні. Це корисно в тих випадках, в який час вам небажана індексація деяких сторінок, наприклад, що містять "закриту" інформацію.

Файл robots.txt змушений володіти формат текстового файлу для Unix. Деякі редактори вміють перетворювати звичайні Windows-файли, іноді це може зробити FCT-клієнт. Файл складається з записів, кожна з яких містить пара поля: рядок з назвою клієнтської програми (user-agent), також одну або кілька рядків, що починаються з директиви Disallow:
<Поле> ":" <значення>

Рядок User-agent містить назву "робота". наприклад:
User-agent: googlebot

Якщо ви звертаєтеся до всіх роботам, ви можете використовувати символ підстановки "*":
User-agent: *

Назви роботів дозволено знайти в журналах доступу до Вашого веб-сервера.

Інша частка команди складається з рядків Disallow. Дані рядка - директиви для даного "робота". Вони повідомляють "роботу" які файли і / або каталоги роботу заборонено індексувати. наприклад:
Disallow: email.htm

Директива може мати також назва каталогу:
Disallow: / cgi-bin /

У директивах Disallow можуть схоже використовуватися також символи підстановки. Стандарт диктує, що директива / bob заборонить "павукам" індексувати також /bob.html, також /bob/index.html.

Якщо директива Disallow стане порожньою, це означає, що робот може індексувати всі файли. Як мінімум, одна директива Disallow має бути присутня для кожного поля User-agent, щоб robots.txt вважався вірним. Повністю порожній robots.txt означає те бла бла саме, як якщо б його не було загальний.