Правильный robots txt. Как создать и проверить его на корректность.

Файл robots.txt. С чем его едят?

Автор: Soldat · Дата: 7 августа 2009 · Прокомментировать


Приветствую всех. Сегодня хочу поделиться своим мнением о целесообразности использования файла robots.txt для ваших сайтов и персональных блогов. Я думаю что это за robots.txt многим объяснять не надо. Если же кто еще не в курсе, то это текстовый файл, находящийся в корневой директории вашего сайта (http://yuosite/robots.txt) и позволяющий вам запретить к индексации поисковым роботам какие-либо страницы или целые директории. Для чего же их запрещать? Дело в том, что если на вашем сайте множество динамических страниц, глубоких директорий или просто плагиат и вы не хотите, чтобы все это дело было доступно для индексации поисковым роботам, то запрет для индексации вы можете прописать в файле robots.txt. Конечно для запрещения индексации вы всегда можете использовать тег noindex , но насколько я знаю он используется для Яндекса и прописывать его везде просто устанешь. Использование robots.txt просто удобнее. Я, например, всегда закрываю от индексации новостные блоки если они имеют место быть на сайте.

Создать файл роботс.тхт можно в любом текстовом блокноте, затем обозвать его robots.txt и закачать на сервер. Кстати, сейчас у многих хостеров есть удобная форма для создания и редактирования robots.txt прямо в админке.

Не буду досконально расписывать все команды и функции, которые используются в этом файле. Подробно о robots.txt вы можете прочесть в панели вебмастера Яндекса использование robots.txt. В кратце же стандартный robots.txt выглядит так

User-agent: {имя поискового паука, которому вы хотите запретить или разрешить индексацию}
Disallow: {имя файла или папки, запрещенных к индексации}

К примеру вы хотите запретить индексацию для робота Yandex файла, который расположен по адресу http://yuosite/product_info.php, то robots.txt будет выглядеть так

User-Agent: Yandex
Disallow: /product_info.php

Следует заметить, что имена поисковых пауков не всегда совпадают с именами поисковых систем, к которым он относится. Вот небольшой список названий пауков для наиболее популярных ПС:

Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp:
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp

Кстати, однажды столкнулся с небольшой проблемой. Хотел закрыть от индексации картинки для Гугля. Ничего не получалось, пока не наткнулся на информацию о том, что оказывается у Google имя поискового паука для картинок не Googlebot, а Googlebot-Image. Век живи, век учись.

Если честно, то в первое время (примерно в течение полугода с начала работы в интернете) я в процессе создания и продвижения сайтов никогда не использовал файл robots.txt. Скорее всего это мое игнорирование было связано с природным разгильдяйством, да и тратить время на изучение robots.txt просто было жалко. Теперь, по прошествии времени, я понимаю, что конечно использование robots.tx - это основа основ. Да и пишу я эту статью скорее для новичков, чтобы не повторяли моих ошибок.

Я не говорю, что использование файла robots.txt - это панацея. Например, проанализировав блоги нескольких известных рунетовских блоггеров, я обратил внимание, что в robots.txt у них прописано минимум запретов. К примеру результаты поиска, запрет зеркал сайта, указание паукам на карту сайта и т. д. Некоторые вообще robots.txt не используют. Так как большинство блогов находится на популярном движке wordpress, то для меня это немного странно. Wordpress генерирует множество ненужных страниц, к примеру страницы тегов. Недавно наткнулся на одном из блогов на правильный robots.txt для wordpress. Выглядит он так:

User-agent: Yandex
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yousite.ru

User-agent: *
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://www.yousite.ru/sitemap.xml
Sitemap: http://www.yousite.ru/sitemap.xml.gz

В принципе с таким robots.txt для wordpress согласен, только я не стал бы закрывать от индексации комментарии и картинки.
Небольшой комментарий: Host: www.yousite.ru - закрытие от индексации зеркал сайта;
Sitemap: http://www.yousite.ru/sitemap.xml - прописывание карты сайта в формате xml. Дело в том, что для всех поисковых пауков намного удобнее индексировать сайт, используя его карту, а так как любой паук при посещении сайта прежде всего обращается к файлу robots.txt, то полная индексация нужных директорий вашего сайта гарантирована.

При создании файла robots txt очень важно не ошибиться, так как недолго наделать ошибок и закрыть от индексации весь сайт. Проверить на корректность robots txt вы можете используя панели вебмастера для Яндекса и для Гугля.

Резюмируя все выше написанное можно сказать, что использовать или нет файл robots.txt при создании сайта дело каждого вебмастера. Я же настоятельно рекомендую по крайней мере robots.txt не игнорировать, а внимательно изучить и решить нужен он вам или обойдетесь так.

Искренне ваш, Солдат от seo.

Если нужен Мерседес, подпишись на RSS!

Popularity: 47% [?]

Метки:, ,
Также рекомендую почитать по этой теме: Если вам понравилась статья, то вы можете подписаться на RSS, чтобы читать статьи блога раньше других.
или вы можете получать новые статьи по e-mail...

Рубрика: Создание сайтов · Запись имеет метки: , ,  

Комментарии
  1. Антон пишет: 08/08/2009 в 17:22

    Лично я, не пользуюсь этим файлом. Правильно вы пишите, что если напортачить с robots.txt, то и проблем будет Но в то же время, он просто необходим для сокрытия от поисковиков каких-нибудь файлов, например которые Вы продаёте.



Оставить комментарий или два
О сайте

Привет всем! Вы на моем блоге. Блоге любопытного солдата. Почему солдата? В свое время служил в армии и с тех пор очень многие мои друзья с удовольствием меня так называют.
Почему любопытного? Люблю задавать вопросы и очень люблю находить на них правильные ответы!
С некоторых пор меня очень заинтересовала тема сайтостроения в интернете и все что с ней связано. То бишь создание сайтов, оптимизация, Seo, блоггинг и т. д. (Да уж, я явно не первый)) Предлагаю изучать этот вопрос вместе. Будет интересно.
И помните: все мы когда-то были Школьнегами...

Подпишись на RSS

Если Вам нравится этот блог - подпишитесь на RSS ленту. Это даст Вам преимущество - получать все интересные и свежие обновления первее других.

Или же просто на рассылку по e-mail, что намного удобнее...
Также вы можете следовать за мной в twitter!

Поиск Рубрики Наиболее популярные посты
  1. 100% Индексация сайта. Ускорение индексации.
  2. 99% Правильная внутренняя оптимизация и перелинковка сайта.
  3. 81% Анализ сайтов конкурентов.
  4. 61% Воровство контента и как с этим воровством бороться.
  5. 59% Азартная зависимость или от азартных игр нам радостно и больно.
  6. 54% Полезные seo расширения от firefox
  7. 47% Файл robots.txt. С чем его едят?
  8. 42% Личности в блогосфере.
  9. 36% Партнерская программа интернет online магазина Goodbody.
  10. 34% Спортивный покер прекратил свое существование как вид спорта в России.

© 2009 SEO, оптимизация, раскрутка сайтов, партнерские программы.

Тема создана проектом GoodwinPress.Ru При поддержке Depeche Mode Fan Blog