Фев
02
2011

WordPress. Попытка решить проблему дублирования контента.

Wordpress. Попытка решить проблему дублирования контента.Написание этой заметки я задумал уже давно. Проблема с дублированием контента существовала всегда. На своем блоге я хочу провести некий эксперимент.



Большинство популярных CMS так или иначе дублируют контент. Много вебмастеров (в том числе и я) боряться с этим очень просто. Они закрывают в robots.txt все, что может хоть как-то дублировать контент: теги, категории, архивы, поиск, фиды. У меня с индекса Яндекса тоже недавно вылетело несколько сайтов и я предпологал, что это могло случиться только через две вещи: продажа ссылок в сапе, дублированный контент. Только, вот почему Яндекс может выкинуть сайт с индекса через сапе я понимаю, а через дублированный контент — нет. [warning]Проблема в том, что если есть дублированный контент, робот Яндекса может оставить в индексе совсем не ту страницу, которую хотелося бы Вам. К тому же, а ведь анонсы новостей на главной тоже дублируют контент.[/warning]

Решаем проблему дублированного контента.

После написания этой статьи я открою в robots.txt для индексации теги, категории и архивы. При всех настроках, которые опишу ниже, я считаю полного дублирования контента и выпадения страниц из индекса не должно последовать. Для чего это нужно я думаю все догадываются. Чем больше страниц в индексе, тем лучше. И не только для количества увеличения страниц по продаже ссылок на бирже. Тем более такое делать не очень хорошо на сайте, который созданный для людей. В первую очередь это хорошо для бесплатного продвижения своего сайта по сч и вч запросам.

Открываем для индексации теги (метки).

Большинство популярных CMS уже давно завелось такой интересной штукой, как метки. С помощью них можно легко найти интересный материал по узкому запросу. Кстати, большинство оптимизаторов не рекомендует вообще использовать теги, а тем более выводить их в боковой колонке. Бытует мнение, что на странице не должно быть более 50 ссылок, не важно внутренние они или внешние. С помощью меток число ссылок на странице существенно увеличивается. Но в этом есть и плюс — дополнительная перелинковка страниц. Сеошники стараются контролировать этот процес, выводят различные схемы перелинковки. Одни ориентированные для продвижения ВЧ запросов. В этом случае со всех страниц должны ссылаться на главную, а с нее в свою очередь минимум ссылок на другие страницы. И т.д. Меня немного занесло не туда. 🙂

С тегами я поступаю следующим образом.
Вчера на просторах интернета мною был найден очень интересный плагин. Называется он — Noindex one post.
[note]Плагин закрывает от индексации все теги, которые присутствуют только в одной записи. Т.е. если тег прикреплен к 2 или больше постов он ие закрывается. Улавливаете мысль?[/note]
Также сегодня с помощью плагина Simple Tags пройдусь по всех тегам, отредактирую словоформы и некоторые не актуальные теги удалю.

Открываем для индексации категории.

По умолчанию в категориях выводится той же анонс новости, что и на главной. Но есть решение как его уникализировать. Вчера я присмотрелся в админке на странице добавления поста к такому полю как цитаты.
[important]Поле, которые перевели как цитата, не достающее звено. Содержимое этого поля может выводится как анонс к новости.[/important]
А теперь, как я все реализовал.

  • Создал файл category.php. В нем заменил the_content на the_excerpt для возможности вывода в анонсе содержимого с поля цитата. Кстати, если это поле пустое, то в анонсе по умолчанию будут отображаться первые 50 слов с поста.
  • Прошелся по всем постам и добавил уникальный текст в поле цитата. Такое необходимо проделать если хотите открывать категории и архивы к индексации.
  • Для красивого оформления добавил и активировал плагин SuperSlider-Excerpt, который автоматически добавляет картинку в анонс. Если в посте не использовалось картинок он все равно добавить превью. Единственное, что в нем не понравилось — картинка может быть только в виде ссылки (на изображение, пост).
  • После этого убрал […] с помощью специальной функции, которую добавил в functions.php шаблона

Открываем для индексации архивы.

Я сразу догадываюсь, что Вы хотите задать вопрос о целесообразности открытия для индексации архивов. Для начала скажу, что для архивов тоже создавал отдельный файл archive.php в котором сделал туже замену, что и в файле категорий.
А теперь отвечу на Ваш вопрос вопросом. А чем же отличаются архивы от категорий в WordPress?
[important]Рубрики от архивов отличаются только методом вывода на странице информации. Так категории выводят только посты с определенной рубрики. А архивы выводят посты за некоторый период времени (за месяц).[/important]
В каком случае может полностью продублироваться контент между архивами и категориями?
Только если Вы будете целый месяц писать посты в одну категорию.

В общем сегодня все доделаю, оптимизирую и открываю для индексации теги, категории и архивы. Спасибо всем, кто осилил данную заметку. Очень хочу услышать Ваше мнение.

Upd 14.02.2011
Эксперимент начат. Убрал в robots.txt запрет на индексацию архивов, категорий и тегов. В начале эксперимента в индексе гугла есть 1010, в яндексе — 181, в рамблере — 172, в яху — 219, в бинг — 99. Продолжительность эксперимента пока не определена.

VN:F [1.9.22_1171]
Рейтинг: 0.0/10 (голосов: 0)


Метки: ,


  • all in seo pack зачем придуман?)))) в нем же есть уже запрет индексации

  • а что в нем можно запрещать индексацию отдельных тегов?

  • не отдельных тегов, а полностью все теги, рубрики можно запретить индексацию

  • не отдельных тегов, а полностью все теги, рубрики можно запретить индексацию

  • так в том-то и дело, что я не хочу все запрещеть, а наоборот — разрешить
    а запрещать я привык в роботс.тхт
    плагинам не доверяю

  • Спасибо за пост, но я что-то подобное уже делал у себя в блоге:) На заметку возьму

  • zis

    полагаю, что если основные страницы уже в индексе, то может произойти следующее: страницы с тэгами/категориями сначала попадут в индекс, а потом будут скакать туда-сюда. По итогу все же выпадут, но сайт поколбасит.

    С другой стороны, если они останутся в индексе — то …ммм… не факт что это будет глобально лучше — с т.з. оптимизации по поисковым запросам.
    Когда на запрос посетителю выдается страница — это хорошо и правильно.
    Если же на запрос будет выдаваться страница тэгов, то…ммм… как-то не кажется мне что это есть хорошо.

  • И каковы же результаты эксперимента? Стоит открывать метки?

  • Пока трудно сказать. Количество страниц в поиске возросло. Причем доля в 40% приходится именно на страницы тегов. Прироста в количестве посетителей не увидел. В начале эксперимента в яндексе в индексе было 181 страница, сейчас — 280 и пока ничего не скачет.

  • Здравствуйте.
    Скажите, а стоит ли один пост помещать в несколько рубрик? Не приведёт ли это к дублированию контента?

  • Тут все зависит от настроек роботс.тхт
    Если он настроен так, чтоб индексировать только посты и исключить с поиска категории, архивы, теги, то ничего страшного в этом нет.
    Если же индексируются категории, то пост в индекс попадет только с одной категории (на усмотрение поисковым роботом).

  • То есть можно помещать пост сразу в несколько рубрик?, а в роботс.тхт написать типа такого:
    Disallow: /archives/
    Disallow: /category/
    Disallow: /tag/
    Или как?

  • Да, Вы все правильно поняли. Тогда в индексе будут только посты и не важно к скольким категориям они относятся.

Читайте, не отвлекайтесь! =)

© Интернет дом ленивца - личный блог о сео, смо, сайтостроению. Построен на небольших заметках автора. Копирование материалов без активной ссылки на darmoid.ru запрещается и преследуется законом об авторском праве!
Вверх!