Дублирование счастья и пенальти: когда и почему

Google хотела демитифицировать понятие штрафа за дублирование счастливого, потому что веб-мастера склонны высказывать неверные представления об этом. Во-первых, он сказал, что «пенальти за дубликат контента», строго говоря, не существует.

Но со времен Panda Update все изменилось. Напротив, понятие дублированного контента распространилось на сайты, у которых слишком много похожих страниц и которым затем наносится общий отрицательный балл, обесценивающий их позиционирование в целом.

Анализ случая аналогичного, но не строго рекопированного контента дает сотрудник Google. В этом случае на площадке был разброс на 50 мест.

Штрафы

Они существуют на практике в том смысле, что сайт не может быть индексирован или классифицирован, если:

  1. Он берет содержимое с одного сайта на другой или указывает на два домена на одном сайте.
  2. Он повторяет контент стороннего сайта на своем.
  3. Он вновь публикует уже опубликованную статью без существенных дополнений.
  4. У него слишком много страниц, похожих друг на друга.

Случайный дубликат

Один из самых частых и скучных случаев - когда два доменных имени указывают на один и тот же сайт. Вебмастер представляет, что это позволяет вернуть на один и тот же сайт интернет-пользователей, набиравших по памяти другой домен, например, в .com и .fr, но для роботов поисковых систем это два разных сайта с одинаковым контентом, и они оба не могут быть проиндексированы.

Та же проблема может возникнуть и в том случае, если роботы получают доступ к динамическому URL-адресу, такому как http://www.scriptol.com?x = 5 и более значимый URL-адрес, созданный с заголовком поста, но указывающий на ту же страницу, что может случиться с CMS.

Эти страницы не будут наказаны, но они пострадают от фильтрации поисковиками, которые не хотят иметь одни и те же страницы в нескольких экземплярах в индексе. (Ссылка).

То, что будет тогда, определяется тремя пунктами:

  1. Две страницы с одинаковым содержимым откладываются.
  2. Один из них выбран как лучший URL-адрес.
    Если один из них находится в ситемапе, а другой нет, то удерживается первый.
  3. Затем учитываются факторы, подтверждающие или не подтверждающие это качество, в основном количество обратных ссылок на этот URL.

Как сказал Мэтт Каттс в интервью группе вебмастеров, URL-адрес, выбранный для индекса, считается оригинальным и имеет больше всего бэклинков.
Если две страницы содержат одну и ту же информацию, не будучи строго похожей, и если одна из них имеет ссылку на другую, то другая будет рассматриваться как ссылка .

Канонический маяк

Чтобы избежать дублирования легитимного контента, созданного автором страниц, Google ввела тег для размещения в разделе <head> и указывает URL-адрес, который нужно учитывать для страницы, когда она доступна по нескольким разным адресам.

<link rel="canonical" href="url de la page" /> 

Посмотрите, как создать общий канонический тег в PHP.

Заключение

Наличие дублирующего контента на сайте может штрафовать его многими способами без формально наложенного поисковиками штрафа. Если дубликат не будет обнаружен, PageRank будет разбавлен между двумя страницами, а если это так, то индексируется только одна из двух, не будучи уверенным, что это правильно.
Тем не менее, мы не должны беспокоиться, если мы поймем, что у нас есть дубликат контента, доступный роботам: Достаточно просто удалить дубликат контента или просто сделать его недоступным, чтобы негативные последствия исчезли .

Ссылки