Знакомство с файлом robots.txt
Обсуждая в предыдущей статье дублированный контент, мы выяснили, что самым верным способом обезопасить себя от этой напасти является правильно составленный robots.txt. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.
Что такое файл robots.txt
Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:
robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!
А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.
Из чего состоит файл robots.txt
И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.
В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:
User-agent: Yandex
Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:
User-Agent: * — это все, любые, роботы
Далее мы записываем все, что хотим сообщить указанному роботу.
Disallow: и далее то, что запрещаем
Allow: и далее все, что разрешаем
Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Например, у меня есть домены blogotey.ru и blogotey.com, но главным, конечно, является первый. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.
Вот примеры запрещения индексировать:
Disallow: /cgi-bin* — файлы скриптов;
Disallow: /wp-admin* — административную консоль;
Disallow: /wp-includes* — служебные папки;
Disallow: /wp-content/plugins* — служебные папки;
Disallow: /wp-content/cache* — служебные папки;
Disallow: /wp-content/themes* — служебные папки;
Disallow: /feed* — ленту рассылки;
Disallow: */feed
Disallow: /comments* — комментарии;
Disallow: */comments
Disallow: /*/?replytocom=* — ответы на комментарии
Disallow: /tag/* — метки
Disallow: /archive/* — архивы
Disallow: /category/* — рубрики
Как создать собственный файл robots.txt
Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.
Я тоже поступала подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.
В следующей статье мы посмотрим, как проверить корректность и эффективность нашего файла robots.txt.
Читайте БлоготеЙ! на Google+ | |
Читайте БлоготеЙ! на Фейсбуке |
Может это и не правильно, но я сделала теги и категории индексируемыми для того, чтобы разместить ссылки Сапы. Посмотрю, что будет.
[Ответить]
katyaru отвечает:
Сентябрь 19th, 2012 at 20:44
Ну, может, и ничего не будет… Многие вообще живут, не влезая в роботс. Хотя, это неправильно!)
[Ответить]
Свекровушка отвечает:
Сентябрь 19th, 2012 at 21:45
Я свой роботс несколько раз редактировала, потому, что были проблемы с индексацией реплитокомов, приходилось все время совершенствовать его.
[Ответить]
Да, многие теги и рубрики не запрещают, и счастливо живут. Зато вот страницы (pages) и содержимое плагинов и модулей запрещать приходится.
[Ответить]
Катя, хэлп!
Обнаружила странность с файлом robots. Загружен в нужное место, прописан тоже вроде верно (или я не вижу ошибку?).
При проверке и двух сервисах мне выдается информация, что роботы видят только это:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://zdorovogotovim.ru/sitemap.xml.gz
Посмотрела его, кое-что добавила, вернула через фтп в корневую папку — и никаких изменений.
[Ответить]
Наталья отвечает:
Май 20th, 2013 at 15:37
Катя, это какие-то шаманские штучки. Взяла все скопировала, вставила в новый блокнот, назвала с маленькой буквы и его стало видно!
[Ответить]
katyaru отвечает:
Май 20th, 2013 at 17:12
А было с большой?… Хорошо, что все разрешилось!)
[Ответить]
Наталья отвечает:
Май 20th, 2013 at 17:53
Да, было с большой. Но он аналогичный в старом блоге, а там все было ок. Раньше )) Надо проверить теперь ))
[Ответить]
Привет, в индексе яндекса собралось очень много таких страниц (3 ссылки для примера). То-есть индексирует бесполезные страницы, подскажи как их закрыть в robots.txt. Заранее спасибо. И как думаешь нужно их закрывать? к слову сказать дублей в индексе поисковиков я не обнаружил.
сайт/new/page/2
сайт/filmy/page/6
сайт/boeviki/page/5
(заменил домен на слово сайт, слышал многие блогеры не любят, что в комментариях писали свои сайты)
[Ответить]
Katyaru отвечает:
Апрель 1st, 2014 at 00:41
Привет)
Disallow: /page/*
Не любят, когда ставят ссылки)))
[Ответить]
Андрей отвечает:
Апрель 1st, 2014 at 13:23
Вот так было прописано у меня, то-есть заменить или дописать еще одну строчку?
Disallow: /page
Как закрыть от индексации одну рубрику, к примеру — (novosti), чтоб все посты, которые в ней не попадали в индекс поисковиков. Большое спасибо за помощь)
[Ответить]
Katyaru отвечает:
Апрель 1st, 2014 at 13:29
Перепишите строчку.
Чтобы закрыть категорию novosti, напишите
Disallow: /novosti*
[Ответить]