«PHP-Creative»

 

Меню сайта


Новые статьи



Статистика

Rambler's Top100

Рейтинг@Mail.ru

Сейчас на сайте: 1

robots.txt – средство от роботов!

Дата добавления: 2009-05-14

Автор статьи: Роман Нагорнюк

Ни для кого не секрет, что все поисковые системы используют для проверки сайтов своих роботов.
Это такие программы, которые ходят по всем сайтам и сканируют содержимое, в независимости от того хотите ли вы этого или нет. А после, по запросу в поисковой системе, в случае соответствия содержимого данному запросу, выдается страница сайта, которую робот просканировал.
   А что делать, допустим, если вы не хотите чтобы робот сканировал какую-то страницу вашего сайта, либо файлы? Да все очень просто – для этого существует файл robots.txt , который предназначен для того, чтобы ставить запрет роботу проверять файлы, либо страницы вашего сайта.
   Как создать файл robots.txt спросите вы? Для этого создаем обычный текстовый документ и называем его robots.txt (обязательно в нижнем регистре, т.е. ROBOTS.TXT или Robots.txt будут неправильным названием и робот проигнорирует такой файл.) Размещается robots.txt в корневой директории вашего сайта, т.е там, где находятся все файлы вашего сайта. Внутри файла robots.txt записи разделяются одной или несколькими пустыми строками. Для комментария используется символ #. Это означает, что после символа # все записи воспринимаются роботом как комментарий. Строка, состоящая только из комментария, роботом не учитывается и не является разделителем записей.

   Из чего состоит robots.txt?

   User-agent - это имя робота, которому ставится запрет на сайте. Можно прописать несколько полей User-agent для нескольких роботов, либо прописать User-agent: * для всех роботов сразу. Важно: в файле robots.txt может быть только одна запись User-agent: * !!!
Пример:
User-agent: Yandex                - для поискового бота Yandex
User-agent: Googlebot           - для поискового бота Google
User-agent:  StackRambler    - для поискового бота Rambler
User-agent: Aport                  - для поискового бота Aport
User-agent: *                         - для всех ботов сразу

   Disallow – это поле, в котором прописывается полный или частичный путь к месту на сайте, куда запрещено заходить роботу для сканирования содержимого. Пустое значение поля Disallow разрешает роботу посещать любую директорию сайта и сканировать все файлы. Важно: в файле robots.txt должно быть как минимум одно поле Disallow!!! В данном поле не допускаются символы подстановки и регулярные выражения.

Возьмем для примера сайт http://site.com и рассмотрим внутреннюю структуру файла robots.txt:

User-agent: Yandex      
Disallow:    /print.html
#поисковому роботу Яндекс запретить проверять файл по адресу
# http://site.com/print.html

User-agent: StackRambler   
Disallow:    /img/
Disallow:    /test.php?act=any
#поисковому роботу Рамблер запретить посещать всю папку по адресу
# http://site.com/img/
#а также страницы, начинающиеся с http://site.com/test.php?act=any
#такие как http://site.com/test.php?act=any&id=2  и т.д.

User-agent: *
Disallow: /video/
# всем поисковым роботам не проверять файлы в папке
# http://site.com/video/

Также некоторые поисковые системы в файле robots.txt поддерживают дополнительные поля. Так, например, Яндекс поддерживает поле Host для назначения основного зеркала сайта.

User-agent: Yandex
Disallow: /print.html
Host: site-test.com
# поисковому роботу Яндекс запретить проверять файл по адресу
# http://site.com/print.html
# основным зеркалом назначено http://site-test.com

Также можно встретить такую запись:

User-agent: *
Disallow:
# всем роботам разрешено посещение всех страниц и папок на сайте

Либо такую:

User-agent: *
Disallow: /
# запрещено всем роботам проверять полностью весь сайт,
# то есть сайт закрыт от роботов полностью.

   Теперь о том, какие файлы необходимо запретить для индексации роботом:
В первую очередь – это файлы для печати, т.к. они дублируют содержимое страницы и не содержат навигационное меню.
Также к запрету можно поставить папки со скриптами, картинками и прочим, если только вы не ждете целевой аудитории по этим категориям.
Желательно запретить роботу индексацию сервисных страничек, таких как страничка с формой обратной связи, страничка со схемой проезда к офису и т.д , т.к эти страницы не несут никакой полезной информации для поисковой системы.
Не рекомендуется записывать в файл robots.txt администраторские файлы и папки, так как robots.txt является общедоступным файлом и запись типа Disallow: /admin только может доставить вам лишние проблемы.

Если у вас по каким-либо причинам не работает robots.txt, то обратите внимание на следующее:
1.Имя файла, оно не должно содержать в себе большие буквы. Правильно – robots.txt
2.Поле User-agent пустое , а это недопустимо.
3.Нет поля Disallow, либо оно содержит недопустимые символы, такие как «?», « !», «/» и т.д, либо больше одной строки Disallow:*
4.Файл robots.txt находится не в корневой директории сайта.

И на последок, robots.txt используют не только порядочные поисковые системы как Yandex, Google, Rambler, Aport, Yahoo, MSN и т.д, но также и другие организации, роботы которых игнорируют файл robots.txt, поэтому не думайте, что robots.txt – это решение всех проблем.

Просмотров: 8510

Комментарии к данной статье:

Добавил(а): propifenazon
Дата: 2009-05-14

Возможно ты и не хотел ущемлять права определенных поисковых сайтов? Либо на твоём месте я бы просто заменил Яндекс и Рамблер на вымышленный поиковик.

Добавил(а): BagiraL
Дата: 2010-11-17

я ставил на своем сайте http://www.maymay.ru разрешение User-agent: * Disallow: для всех роботов но не один робот не зашел... ... так он и не зайдет. Disallow - это не следовать! Запрет.

Добавил(а): msdcorp
Дата: 2010-06-07

я правильно понял, Этот тхт фал можно ложить на любом хостинге для ограничения Роботам путей (с шаблонами фалов) на Абсолбтно любом Хостинге. я недавно в этой сфере - любопытно ))

Добавил(а): Сергей
Дата: 2010-07-04

я ставил на своем сайте http://www.maymay.ru разрешение User-agent: * Disallow: для всех роботов но не один робот не зашел...

Добавить новый комментарий:

Введите сумму чисел с картинки:

Реклама