Дублирование счастья и пенальти: когда и почему
Google хотела демитифицировать понятие штрафа за дублирование счастливого, потому что веб-мастера склонны высказывать неверные представления об этом. Во-первых, он сказал, что «пенальти за дубликат контента», строго говоря, не существует.
Но со времен Panda Update все изменилось. Напротив, понятие дублированного контента распространилось на сайты, у которых слишком много похожих страниц и которым затем наносится общий отрицательный балл, обесценивающий их позиционирование в целом.
Анализ случая аналогичного, но не строго рекопированного контента дает сотрудник Google. В этом случае на площадке был разброс на 50 мест.
Штрафы
Они существуют на практике в том смысле, что сайт не может быть индексирован или классифицирован, если:
- Он берет содержимое с одного сайта на другой или указывает на два домена на одном сайте.
- Он повторяет контент стороннего сайта на своем.
- Он вновь публикует уже опубликованную статью без существенных дополнений.
- У него слишком много страниц, похожих друг на друга.
Случайный дубликат
Один из самых частых и скучных случаев - когда два доменных имени указывают на один и тот же сайт. Вебмастер представляет, что это позволяет вернуть на один и тот же сайт интернет-пользователей, набиравших по памяти другой домен, например, в .com и .fr, но для роботов поисковых систем это два разных сайта с одинаковым контентом, и они оба не могут быть проиндексированы.
Та же проблема может возникнуть и в том случае, если роботы получают доступ к динамическому URL-адресу, такому как http://www.scriptol.com?x = 5 и более значимый URL-адрес, созданный с заголовком поста, но указывающий на ту же страницу, что может случиться с CMS.
Эти страницы не будут наказаны, но они пострадают от фильтрации поисковиками, которые не хотят иметь одни и те же страницы в нескольких экземплярах в индексе. (Ссылка).
То, что будет тогда, определяется тремя пунктами:
- Две страницы с одинаковым содержимым откладываются.
- Один из них выбран как лучший URL-адрес.
Если один из них находится в ситемапе, а другой нет, то удерживается первый. - Затем учитываются факторы, подтверждающие или не подтверждающие это качество, в основном количество обратных ссылок на этот URL.
Как сказал Мэтт Каттс в интервью группе вебмастеров, URL-адрес, выбранный для индекса, считается оригинальным и имеет больше всего бэклинков.
Если две страницы содержат одну и ту же информацию, не будучи строго похожей, и если одна из них имеет ссылку на другую, то другая будет рассматриваться как ссылка .
Канонический маяк
Чтобы избежать дублирования легитимного контента, созданного автором страниц, Google ввела тег для размещения в разделе <head> и указывает URL-адрес, который нужно учитывать для страницы, когда она доступна по нескольким разным адресам.
<link rel="canonical" href="url de la page" />
Посмотрите, как создать общий канонический тег в PHP.
Заключение
Наличие дублирующего контента на сайте может штрафовать его многими способами без формально наложенного поисковиками штрафа. Если дубликат не будет обнаружен, PageRank будет разбавлен между двумя страницами, а если это так, то индексируется только одна из двух, не будучи уверенным, что это правильно.
Тем не менее, мы не должны беспокоиться, если мы поймем, что у нас есть дубликат контента, доступный роботам: Достаточно просто удалить дубликат контента или просто сделать его недоступным, чтобы негативные последствия исчезли .
Ссылки
- Статья в Google Webmaster Central (от Google).
- Другая статья о дубликате, касающаяся случая, когда сторонний сайт копирует ваш контент.
- См. также Руководство веб-мастера по дублированному содержанию.