Главная / Сайтостроение / Знакомство с файлом robots.txt

Знакомство с файлом robots.txt

Знакомство с файлом robots.txtОбсуждая в предыдущей статье дублированный контент, мы выяснили, что самым верным способом обезопасить себя от этой напасти является правильно составленный robots.txt. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.

Что такое файл robots.txt

Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:

robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!

А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.

Из чего состоит файл robots.txt

И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.

В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:

User-agent: Yandex

Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:

User-Agent: * — это все, любые, роботы

Далее мы записываем все, что хотим сообщить указанному роботу.

Disallow: и далее то, что запрещаем

Allow: и далее все, что разрешаем

Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Например, у меня есть домены blogotey.ru и blogotey.com, но главным, конечно, является первый. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.

Вот примеры запрещения индексировать:

Disallow: /cgi-bin* — файлы скриптов;

Disallow: /wp-admin* — административную консоль;

Disallow: /wp-includes* — служебные папки;

Disallow: /wp-content/plugins* — служебные папки;

Disallow: /wp-content/cache* — служебные папки;

Disallow: /wp-content/themes* — служебные папки;

Disallow: /feed* — ленту рассылки;

Disallow: */feed

Disallow: /comments* — комментарии;

Disallow: */comments

Disallow: /*/?replytocom=* — ответы на комментарии

Disallow: /tag/* — метки

Disallow: /archive/* — архивы

Disallow: /category/* — рубрики

Как создать собственный файл robots.txt

Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.

Я тоже поступала подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.

В следующей статье мы посмотрим, как проверить корректность и эффективность нашего файла robots.txt.

Читайте также

Как оптимизировать картинки для блога?

Как оптимизировать картинки для блога?

Недавно мы обсуждали, как важен для блога качественный графический контент. В комментах к статье было ...

Один комментарий

  1. Вячеслав

    Реанимированные комменты

    Свекровушка:
    19.09.2012 в 20:18
    Может это и не правильно, но я сделала теги и категории индексируемыми для того, чтобы разместить ссылки Сапы. Посмотрю, что будет.

    katyaru:
    19.09.2012 в 20:44
    Ну, может, и ничего не будет… Многие вообще живут, не влезая в роботс. Хотя, это неправильно!)

    Свекровушка:
    19.09.2012 в 21:45
    Я свой роботс несколько раз редактировала, потому, что были проблемы с индексацией реплитокомов, приходилось все время совершенствовать его.

    ladosha:
    20.09.2012 в 08:37
    Да, многие теги и рубрики не запрещают, и счастливо живут. Зато вот страницы (pages) и содержимое плагинов и модулей запрещать приходится.

Добавить комментарий

Ваш e-mail не будет опубликован.