Знакомство с файлом robots.txt

Автор:Дата:Правильное написание файла robots.txt позволит вашему блогу достойно выглядеть в глазах поисковых систем

файл robots.txtОбсуждая в предыдущей статье дублированный контент, мы выяснили, что самым верным способом обезопасить себя от этой напасти является правильно составленный robots.txt. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.

Что такое файл robots.txt

Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:

robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!

А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.

Из чего состоит файл robots.txt

И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.

В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:

User-agent: Yandex

Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:

User-Agent: * — это все, любые, роботы

Далее мы записываем все, что хотим сообщить указанному роботу.

Disallow: и далее то, что запрещаем

Allow: и далее все, что разрешаем

Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Например, у меня есть домены blogotey.ru и blogotey.com, но главным, конечно, является первый. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.

Вот примеры запрещения индексировать:

Disallow: /cgi-bin* — файлы скриптов;

Disallow: /wp-admin* — административную консоль;

Disallow: /wp-includes* — служебные папки;

Disallow: /wp-content/plugins* — служебные папки;

Disallow: /wp-content/cache* — служебные папки;

Disallow: /wp-content/themes* — служебные папки;

Disallow: /feed* — ленту рассылки;

Disallow: */feed

Disallow: /comments* — комментарии;

Disallow: */comments

Disallow: /*/?replytocom=* — ответы на комментарии

Disallow: /tag/* — метки

Disallow: /archive/* — архивы

Disallow: /category/* — рубрики

Как создать собственный файл robots.txt

Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.

Я тоже поступала подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.

В следующей статье мы посмотрим, как проверить корректность и эффективность нашего файла robots.txt.

Оставайтесь на связи! Блоготей пришлет вам новые статьи на почту!
Введите свой E-MAIL:

     Katyaru 19.09.2012


    
Читайте БлоготеЙ! на Google+
Читайте БлоготеЙ! на Фейсбуке

К записи "Знакомство с файлом robots.txt" оставлено 12 коммент.

  1. Свекровушка:

    Может это и не правильно, но я сделала теги и категории индексируемыми для того, чтобы разместить ссылки Сапы. Посмотрю, что будет.

    [Ответить]

    katyaru отвечает:

    Ну, может, и ничего не будет… Многие вообще живут, не влезая в роботс. Хотя, это неправильно!)

    [Ответить]

    Свекровушка отвечает:

    Я свой роботс несколько раз редактировала, потому, что были проблемы с индексацией реплитокомов, приходилось все время совершенствовать его.

    [Ответить]

  2. ladosha:

    Да, многие теги и рубрики не запрещают, и счастливо живут. Зато вот страницы (pages) и содержимое плагинов и модулей запрещать приходится.

    [Ответить]

  3. Наталья:

    Катя, хэлп!
    Обнаружила странность с файлом robots. Загружен в нужное место, прописан тоже вроде верно (или я не вижу ошибку?).
    При проверке и двух сервисах мне выдается информация, что роботы видят только это:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Sitemap: http://zdorovogotovim.ru/sitemap.xml.gz

    Посмотрела его, кое-что добавила, вернула через фтп в корневую папку — и никаких изменений.

    [Ответить]

    Наталья отвечает:

    Катя, это какие-то шаманские штучки. Взяла все скопировала, вставила в новый блокнот, назвала с маленькой буквы и его стало видно!

    [Ответить]

    katyaru отвечает:

    А было с большой?… Хорошо, что все разрешилось!)

    [Ответить]

    Наталья отвечает:

    Да, было с большой. Но он аналогичный в старом блоге, а там все было ок. Раньше )) Надо проверить теперь ))

    [Ответить]

  4. Андрей:

    Привет, в индексе яндекса собралось очень много таких страниц (3 ссылки для примера). То-есть индексирует бесполезные страницы, подскажи как их закрыть в robots.txt. Заранее спасибо. И как думаешь нужно их закрывать? к слову сказать дублей в индексе поисковиков я не обнаружил.

    сайт/new/page/2

    сайт/filmy/page/6

    сайт/boeviki/page/5
    (заменил домен на слово сайт, слышал многие блогеры не любят, что в комментариях писали свои сайты)

    [Ответить]

    Katyaru отвечает:

    Привет)
    Disallow: /page/*

    Не любят, когда ставят ссылки)))

    [Ответить]

    Андрей отвечает:

    Вот так было прописано у меня, то-есть заменить или дописать еще одну строчку?
    Disallow: /page

    Как закрыть от индексации одну рубрику, к примеру — (novosti), чтоб все посты, которые в ней не попадали в индекс поисковиков. Большое спасибо за помощь)

    [Ответить]

    Katyaru отвечает:

    Перепишите строчку.

    Чтобы закрыть категорию novosti, напишите

    Disallow: /novosti*

    [Ответить]


один + = 7

Палю тему!
Гугл в помощь
Надо подписаться!

Введите свой E-MAIL:

Delivered by FeedBurner

Дружите с Блоготеем в соцсетях


Смотрите все ВИДЕО Блоготея на YouTube


Blogotey | 


Спутник Блоготея в Tumblr

НаверхКарта Сайта