Знакомство с файлом robots.txt

Автор:Katyaru

Дата:2012-09-19T20:00:00+00:00

Правильное написание файла robots.txt позволит вашему блогу достойно выглядеть в глазах поисковых систем

Обсуждая в предыдущей статье дублированный контент, мы выяснили, что самым верным способом обезопасить себя от этой напасти является правильно составленный robots.txt. Я знаю, что многих авторов просто пугает необходимость лезть куда-то в корневые папки блога и что-то менять в «служебных» файлах. Но этот ложный страх нужно перебороть. Поверьте: ваш блог не «рухнет», даже если вы поместите в robots.txt собственный портрет (т.е. испортите его!). Зато, любые благотворные изменения повысят его статус в глазах поисковых систем.

Что такое файл robots.txt

Я не буду изображать эксперта, мучая вас терминами. Просто поделюсь своим, довольно простым, пониманием функций этого файла:

robots.txt – это инструкция, дорожная карта для роботов поисковых систем, посещающих наш блог с инспекцией. Нам только нужно указать им, какой контент является, так сказать, служебным, а какой – то самое ценное содержание, ради которого к нам стремятся (или должны стремиться) читатели. И именно эта часть контента должна индексироваться и попадать в поисковую выдачу!

А что случается, если мы не заботимся о подобных инструкциях? – Индексируется все подряд. И поскольку пути алгоритмов поисковых систем, практически, неисповедимы, то анонс статьи, открывающийся по адресу архива, может показаться Яндексу или Гуглу более релевантным, чем полный текст статьи, находящийся по другому адресу. И посетитель, заглянув на блог, увидит совсем не то, чего хотел и чего хотели бы вы: не пост, а списки всех статей месяца… Итог ясен – скорее всего, он уйдет.

Из чего состоит файл robots.txt

И здесь мне не хочется заниматься рерайтом. Существуют довольно понятные объяснения из первых уст – например, в разделе помощи Яндекса. Очень советую прочитать их и не один раз. Но я попытаюсь помочь вам преодолеть первую оторопь перед обилием терминов, описав общую структуру файла robots.txt.

В самом верху, в начале robots.txt, мы объявляем, для кого пишем инструкцию:

User-agent: Yandex

Конечно, у каждого уважающего себя поисковика есть множество роботов – поименованных и безымянных. Пока вы не отточили свое мастерство создания robots.txt, лучше придерживаться простоты и возможных обобщений. Поэтому предлагаю отдать должное Яндексу, а всех остальных объединить, прописав общее правило:

User-Agent: * — это все, любые, роботы

Далее мы записываем все, что хотим сообщить указанному роботу.

Disallow: и далее то, что запрещаем

Allow: и далее все, что разрешаем

Также, мы указываем главное зеркало сайта – тот адрес, который будет участвовать в поиске. Это особенно актуально, если у вас несколько зеркал. Например, у меня есть домены blogotey.ru и blogotey.com, но главным, конечно, является первый. Еще можно указать и некоторые другие параметры. Но самым важным для нас, все-таки, является возможность закрыть от индексации служебные части блога.

Вот примеры запрещения индексировать:

Disallow: /cgi-bin* — файлы скриптов;

Disallow: /wp-admin* — административную консоль;

Disallow: /wp-includes* — служебные папки;

Disallow: /wp-content/plugins* — служебные папки;

Disallow: /wp-content/cache* — служебные папки;

Disallow: /wp-content/themes* — служебные папки;

Disallow: /feed* — ленту рассылки;

Disallow: */feed

Disallow: /comments* — комментарии;

Disallow: */comments

Disallow: /*/?replytocom=* — ответы на комментарии

Disallow: /tag/* — метки

Disallow: /archive/* — архивы

Disallow: /category/* — рубрики

Как создать собственный файл robots.txt

Самый легкий и очевидный путь – найти пример готового файла robots.txt на каком-нибудь блоге и торжественно переписать его себе. Хорошо, если при этом авторы не забывают заменить адрес блога-примера на адрес своего детища.

Я тоже поступала подобным образом и не чувствую себя в праве отговаривать вас. Единственное, о чем очень прошу: разберитесь, что написано в копируемом файле robots.txt! Используйте помощь Яндекса, любые другие источники информации – расшифруйте все строки. Тогда, наверняка, вы увидите, что некоторые правила не подходят для вашего блога, а каких-то правил, наоборот, не хватает.

В следующей статье мы посмотрим, как проверить корректность и эффективность нашего файла robots.txt.

Оставайтесь на связи! Блоготей пришлет вам новые статьи на почту!

Запись имеет метки: robots.txt, индексация Katyaru 19.09.2012



		Читайте БлоготеЙ! на Google+
		Читайте БлоготеЙ! на Фейсбуке

К записи "Знакомство с файлом robots.txt" оставлено 12 коммент.

Свекровушка:
19.09.2012 в 20:18
Может это и не правильно, но я сделала теги и категории индексируемыми для того, чтобы разместить ссылки Сапы. Посмотрю, что будет.
[Ответить]
katyaru отвечает:
Сентябрь 19th, 2012 at 20:44
Ну, может, и ничего не будет… Многие вообще живут, не влезая в роботс. Хотя, это неправильно!)
[Ответить]
Свекровушка отвечает:
Сентябрь 19th, 2012 at 21:45
Я свой роботс несколько раз редактировала, потому, что были проблемы с индексацией реплитокомов, приходилось все время совершенствовать его.
[Ответить]
ladosha:
20.09.2012 в 08:37
Да, многие теги и рубрики не запрещают, и счастливо живут. Зато вот страницы (pages) и содержимое плагинов и модулей запрещать приходится.
[Ответить]
Наталья:
20.05.2013 в 15:23
Катя, хэлп!
Обнаружила странность с файлом robots. Загружен в нужное место, прописан тоже вроде верно (или я не вижу ошибку?).
При проверке и двух сервисах мне выдается информация, что роботы видят только это:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://zdorovogotovim.ru/sitemap.xml.gz
Посмотрела его, кое-что добавила, вернула через фтп в корневую папку — и никаких изменений.
[Ответить]
Наталья отвечает:
Май 20th, 2013 at 15:37
Катя, это какие-то шаманские штучки. Взяла все скопировала, вставила в новый блокнот, назвала с маленькой буквы и его стало видно!
[Ответить]
katyaru отвечает:
Май 20th, 2013 at 17:12
А было с большой?… Хорошо, что все разрешилось!)
[Ответить]
Наталья отвечает:
Май 20th, 2013 at 17:53
Да, было с большой. Но он аналогичный в старом блоге, а там все было ок. Раньше )) Надо проверить теперь ))
[Ответить]
Андрей:
31.03.2014 в 22:46
Привет, в индексе яндекса собралось очень много таких страниц (3 ссылки для примера). То-есть индексирует бесполезные страницы, подскажи как их закрыть в robots.txt. Заранее спасибо. И как думаешь нужно их закрывать? к слову сказать дублей в индексе поисковиков я не обнаружил.
сайт/new/page/2
сайт/filmy/page/6
сайт/boeviki/page/5
(заменил домен на слово сайт, слышал многие блогеры не любят, что в комментариях писали свои сайты)
[Ответить]
Katyaru отвечает:
Апрель 1st, 2014 at 00:41
Привет)
Disallow: /page/*
Не любят, когда ставят ссылки)))
[Ответить]
Андрей отвечает:
Апрель 1st, 2014 at 13:23
Вот так было прописано у меня, то-есть заменить или дописать еще одну строчку?
Disallow: /page
Как закрыть от индексации одну рубрику, к примеру — (novosti), чтоб все посты, которые в ней не попадали в индекс поисковиков. Большое спасибо за помощь)
[Ответить]
Katyaru отвечает:
Апрель 1st, 2014 at 13:29
Перепишите строчку.
Чтобы закрыть категорию novosti, напишите
Disallow: /novosti*
[Ответить]

Знакомство с файлом robots.txt

Что такое файл robots.txt

Из чего состоит файл robots.txt

Вот примеры запрещения индексировать:

Как создать собственный файл robots.txt

В этой же рубрике:

К записи "Знакомство с файлом robots.txt" оставлено 12 коммент.

Популярные статьи

Палю тему!

Гугл в помощь

Надо подписаться!

Рубрики БлоготеЯ

Дружите с Блоготеем в соцсетях