Дублирование счастья и пенальти: когда и почему

Google хотела демитифицировать понятие штрафа за дублирование счастливого, потому что веб-мастера склонны высказывать неверные представления об этом. Во-первых, он сказал, что «пенальти за дубликат контента», строго говоря, не существует.

Но со времен Panda Update все изменилось. Напротив, понятие дублированного контента распространилось на сайты, у которых слишком много похожих страниц и которым затем наносится общий отрицательный балл, обесценивающий их позиционирование в целом.

Анализ случая аналогичного, но не строго рекопированного контента дает сотрудник Google. В этом случае на площадке был разброс на 50 мест.

Штрафы

Они существуют на практике в том смысле, что сайт не может быть индексирован или классифицирован, если:

Он берет содержимое с одного сайта на другой или указывает на два домена на одном сайте.
Он повторяет контент стороннего сайта на своем.
Он вновь публикует уже опубликованную статью без существенных дополнений.
У него слишком много страниц, похожих друг на друга.

Случайный дубликат

Один из самых частых и скучных случаев - когда два доменных имени указывают на один и тот же сайт. Вебмастер представляет, что это позволяет вернуть на один и тот же сайт интернет-пользователей, набиравших по памяти другой домен, например, в .com и .fr, но для роботов поисковых систем это два разных сайта с одинаковым контентом, и они оба не могут быть проиндексированы.

Та же проблема может возникнуть и в том случае, если роботы получают доступ к динамическому URL-адресу, такому как http://www.scriptol.com?x = 5 и более значимый URL-адрес, созданный с заголовком поста, но указывающий на ту же страницу, что может случиться с CMS.

Эти страницы не будут наказаны, но они пострадают от фильтрации поисковиками, которые не хотят иметь одни и те же страницы в нескольких экземплярах в индексе. (Ссылка).

То, что будет тогда, определяется тремя пунктами:

Две страницы с одинаковым содержимым откладываются.
Один из них выбран как лучший URL-адрес.
Если один из них находится в ситемапе, а другой нет, то удерживается первый.
Затем учитываются факторы, подтверждающие или не подтверждающие это качество, в основном количество обратных ссылок на этот URL.

Как сказал Мэтт Каттс в интервью группе вебмастеров, URL-адрес, выбранный для индекса, считается оригинальным и имеет больше всего бэклинков.
Если две страницы содержат одну и ту же информацию, не будучи строго похожей, и если одна из них имеет ссылку на другую, то другая будет рассматриваться как ссылка .

Канонический маяк

Чтобы избежать дублирования легитимного контента, созданного автором страниц, Google ввела тег для размещения в разделе <head> и указывает URL-адрес, который нужно учитывать для страницы, когда она доступна по нескольким разным адресам.

<link rel="canonical" href="url de la page" />

Посмотрите, как создать общий канонический тег в PHP.

Заключение

Наличие дублирующего контента на сайте может штрафовать его многими способами без формально наложенного поисковиками штрафа. Если дубликат не будет обнаружен, PageRank будет разбавлен между двумя страницами, а если это так, то индексируется только одна из двух, не будучи уверенным, что это правильно.
Тем не менее, мы не должны беспокоиться, если мы поймем, что у нас есть дубликат контента, доступный роботам: Достаточно просто удалить дубликат контента или просто сделать его недоступным, чтобы негативные последствия исчезли .

Ссылки

Статья в Google Webmaster Central (от Google).
Другая статья о дубликате, касающаяся случая, когда сторонний сайт копирует ваш контент.
См. также Руководство веб-мастера по дублированному содержанию.