Как создать правильный robots.txt для WordPress и не только

Рад приветствовать на блоге!

В статье Вы узнаете о том, как создать правильный robots.txt для WordPress блога, зачем он вообще нужен, и как сделать правильный robots.txt. Обычно новички, то есть свежие блоггеры делают одну и ту же очень грубую ошибку, забывают или просто создают robots.txt не правильно, это потом негативно отражается на их блоге. Читайте далее, как создать правильный robots…

ЗАЧЕМ ВООБЩЕ НУЖЕН ПРАВИЛЬНЫЙ ФАЙЛ ROBOTS.TXT НА WORDPRESS БЛОГЕ

Движок WordPress, является очень удобным инструментом для ведения бизнеса, записей своих мыслей, мнений и осуществления каких-то проектов. Пользуясь им нужно всего лишь знать примерно 20% HTML и где-то 10% CSS. Так вот каким бы движок WordPress не был удобным и простым (Как создать блог для жизни), все же он имеет массу недостатков, например, дубликат контента.

Если правильно не закрыть дублирующийся контент от поисковых роботов, то это может закончиться плачевно для Вашего WordPress блога, ну, и как Вы понимаете для бизнеса тоже. Поэтому советую внимательно читать дальше, и Вы создадите хороший robots.txt, а главное сделаем все правильно. Так как он уже подтвердил свой авторитет у многих успешных блоггеров.

  • Александр Борисов
  • Александр Бобрин
  • Вебмастер Максим
  • Devaka
  • KtoNaNovenkogo

Вот к примеру: Вы публикуете новую статью, она же появляется сразу на нескольких страницах. На главной станице, RSS-ленте, в рубриках, архивах в поиске и т.д. хоть эти страницы и с разными адресами, но, с одинаковым контентом, то есть текстом. Такой контент называется дублированным и блог может попасть под фильтры АГС поисковых систем (страницы блога выкинут из поиска) или вообще получите БАН, тогда можно и не мечтать о посетителях.

Почему так? Да потому, что это то же самое, если бы Вы взяли контент с другого сайта и он будет уже не уникален на блоге.

Что бы такого ни произошло, нужно составить правильный robots.txt для WordPress и запретить поисковикам индексировать часть контента. Нужно закрыть не только часть контента! В корне лежит много служебных каталогов, которые нужно запретить от индекса.

КАК СОСТАВИТЬ ПРАВИЛЬНЫЙ ROBOTS.TXT ДЛЯ WORDPRESS

Как составить правильный robots.txt

Для начала узнаем основные правила – как он правильно пишется, то есть узнаем директивы.

Первая директива – user agent:

С помощью директивы выше мы укажем какому, поисковому роботу предназначены правила, которые укажем далее.

Приведу пример: Вы запрещаете индексировать свой сайт или блог поисковой системе Яндекс, тогда следует написать такое правило:

User-agent: Yandex

Или Вы хотите дать запрет всем поисковикам, тогда нужно написать:

User-agent: *

Особенно следует указать правила в нашем правильном robots.txt для WordPress Яндексу, так как поисковая система достаточно капризная и с нее идет само больше трафика. Для остальных поисковых систем мы будем писать так:

User-agent: *

Дальше идет директивы disallow и Allow:

Allow – разрешаем индексацию элементов, которые там указаны.

Disallow – наоборот запрещает индексацию указанных элементов.

Каждый robots.txt, должен иметь директиву Disallow (обновление за 02.05.2015 — правила изменились, читайте здесь как и что нужно для правильной работы). Далее читайте внимательно, иначе ничего у вас не получиться!

Правильный robots.txt

ПРАВИЛЬНЫЙ РОБОТС, НАПИШЕМ ТАК

User-agent: Yandex

Disallow:

Так мы разрешим Яндексу индексировать полностью весь сайт или блог.

А теперь вот так:

User-agent: Yandex

Disallow: /

Теперь мы запретили индексировать весь блог.

Правильный robots.txt

ПОСМОТРИМ ПРИМЕР СОСТАВЛЕНИЯ ROBOTS
User-agent: *

Disallow:

User-agent: Yandex

Disallow: /

Тут мы с Вами разрешили всем роботам индексировать блог, а вот Яндексу наоборот запретили.

Теперь Вы должны знать, что именно в WordPress блоге нужно закрывать от индексации, все файлы и папки, которые делают дубль страниц и остальной мусор!

СЛУЖЕБНЫЕ И СИСТЕМНЫЕ ФАЙЛЫ В ROBOTS.TXT
— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Ставлю ударение на папке wp-content, все файлы в ней надо обязательно закрыть, только разрешить индексировать папку uploads, в ней лежат изображения Вашего блога, которые нужно, чтобы поисковики индексировали, если поставить запрет на эту папку, то Ваши изображения на блоге не будут проиндексированы, а это Вам надо?

Правильный robots.txt

закроем каталоги в папке по отдельности

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Если вдруг в папке wp-content есть еще какие-то каталоги, то закройте их обязательно, оставьте доступной только папку “uploads”.

Ладно, надеюсь, я понятно все объяснил, Вы все поняли, и эта статья написана не напрасно. Поэтому дальше не буду описывать все последующие функции файла, а просто выложу свой, который использую на блоге. Жмите здесь для просмотра.

Эти правила рекомендуют вставлять в robots.txt разработчики движка wordpress

# Google Image

User-agent: Googlebot-Image

Disallow:

Allow: /*

# Internet Archiver Wayback Machine

User-agent: ia_archiver

Disallow: /

# digg mirror

User-agent: duggmirror

Disallow: /
МОИ РЕКОМЕНДАЦИИ по СОСТАВЛЕНИю ПРАВИЛЬНОГО РОбОТС

Для того чтобы закрепить полученные знания нужно вам создать текстовый файл под названием robots.txt.

Правильный robots.txt

Внимание: не забудьте поменять следующие строчки:

Sitemap: https://advdk.ru/sitemap.xml;

Sitemap: http:// www.advdk.com/sitemap.xml.gz ;

Host: www.advdk.com.

www.advdk.com поменяйте на свой адрес сайта.

После того как Вы все сделали, поместите файл robots.txt в корне Вашего блога.

Смотрите видео «дублирование контента»

ЕЩЕ НЕМНОГО ПРО ДУБЛИ КОНТЕНТА

Откройте главную страницу Вашего сайта, там вы увидите ленту. Нажмите на заголовок статьи, и Вы перешли на страницу mysite.com/…/…html, то есть та часть на главной странице является дублем, так на главной она тоже есть.

Запретить поисковикам индексировать главную страницу мы не можем, вот именно поэтому выводите на главную страницу как можно меньше текста. Примерно 200-400 символов.

Правильный robots.txt

Пишите приветствие, короткий анонс статьи и ставьте картинку

Для примера зайдите ко мне на главную страницу и посмотрите (анонсы к статьям).

Для вывода подобных анонсов используется тег <! —more—>.

Чтобы узнать подробнее о правильном написании статьи – читайте в следующей записи.

Если говорить простым понятным русским языком, то просто напишите свое приветствие, короткий анонс Вашей статьи и ставьте тег <! —more—>.

Как составить правильный robots.txt

После того как Вы поставили тег <! —more—>, пишите дальше свой пост.

Все то, что написано перед тегом <! —more—>, будет на главной странице блога

Посмотрите видео

Буду заканчивать. Надеюсь, эта статья Вам понравилась и принесла пользу. Оставляйте свои комментарии и подписывайтесь на обновления моего блога, чтобы ничего не пропустить.

С уважением, Алексей Кобзарев

38 комментариев

Ваш комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *