Оглавление
19 декабря 2006, 11:04  

Официальный ответ Гугля о пенальти на дублирование контента.


Предлагаю вам вольный перевод недавней статьи Адама Лазника в официальном блоге Гугля на тему какие именно документы и веб-страницы Google считает дубликатами, как этого избежать, и что будет, если на вашем сайте все же найдут дубли.


Хорошей новостью явлается замечание Адама, что, цитирую оригинал, we prefer to focus on filtering rather than ranking adjustments, т.е. реально к дубликатам не применяются штрафные санкции, а фильтры применяются уже к результатам выдачи, в зависимости от поискового запроса.


Итак, вот сама статья:


Искусство обращения с дубликатами контента

На прошедшей в Чикаго конференции "Search Engine Strategies" многим из нас, сотрудников Google, задавали вопросы о дубликатах контента. Это не простая тема и тут есть множество нюансов и некоторая путаница в понятиях, так что мы решили помочь установить истину.


Что считается дубликатами контента

Дубликатами обычно считают страницы (расположенные внутри одного или нескольких доменов) значительные части которых совершенно одинаковы или заметно схожи с другими страницами. Как правило, это происходит неумышленно или, по крайней мере, не злонамеренно: например, форумы, которые генерируют страницы для обычных пользователей и урезанные по функциональности страницы для доступа посетителей через мобильные устройства. Или, например, одинаковые страницы товаров в интернет-магазинах, которые доступны (и - что еще хуже - пролинкованы) по разным адресам URL. В некоторых случаях контент копируется на несколько разных доменов в попытке манипулирования поисковым рейтингом или с целью получить дополнительный трафик по низкочастотным запросам.


Что не является дубликатами

Хотя мы и предлагаем пользователям переводчик текста, наши алгоритмы не считают одну и ту же статью, написанную на английском и испанском языках, дубликатами. Также вам не стоит беспокоиться о том, что отдельные небольшие фрагменты текста (цитаты и пр.) могут быть помечены как дубликаты.


Почему Google так волнует вопрос о дубликатах?

Наши пользователи обычно хотят видеть в результатах поиска разнообразные сочетания уникального текста. И их, по понятным причинам, раздражает ситуация, когда в результатах поиска они видят один и тот же текст, многократно повторенный. Кроме того, недовольны и вебмастера, когда мы выдаем в результатах сложные URL (вида example.com/contentredir?value=shorty-george&ln=en) вместо предпочитаемых красивых ЧПУ вида (example.com/en/shorty-george.htm).


Что Google делает по этому поводу?

Во время индексации сайтов нашими роботами и при выдаче результатов поиска мы усиленно стараемся индексировать и показывать ссылки на страницы с отличной от других информаций. Такая фильтрация контента означает, например, что если на вашем сайте есть как обычные варианты статей, так и версии для печати, и ни один из этих наборов не заблокирован в файле robots.txt или через мета-тэг noindex, мы сами выберем один из вариантов для включения в выдачу. В тех редких случаях, когда мы считаем, что клонирование контента произведено с целью манипулирования нашим поисковым рейтингом или для обмана наших пользователей, мы можем внести соответсвующие изменения в механизмы индексации и ранжирования вовлеченных в клонирование сайтов. Однако, мы предпочитаем фокусировать усилия на фильтрации, а не на подкручивании алгоритмов ранжирования, так что, в подавляющем большинстве случаев, самое худшее для вебмастеров, что может произойти - это то, что в SERP мы покажем "не ту" версию страницы, какую они хотели бы там видеть.


Как вебмастеру эффективно решить проблему дубликатов

  • Правильное блокирование - вместо того, чтобы позволять нашим алгоритмам определять "лучшую" версию документа, вы можете помочь нам в выборе варианта. Например, если вы не хотите, чтобы мы не индексировали версию для печати - запретите индексацию соответсвующих директорий сайта или используйте регулярные выражения в файле robots.txt
  • Используйте HTTP 301 редирект - если вы провели редизайн сайта, поставьте 301 редирект ("RedirectPermanent") в файле .htaccess для умного перенаправления посетителей и роботов, в том числе и робота Googlebot.
  • Будьте последовательны - прилагайте усилия для сохранения внутренней ссылочной структуры вашего сайта - не ссылайтесь на одну и ту же страницу разными вариантами типа /page/ /page или /page/index.html
  • Используйте TLD домены - чтобы помочь нам подобрать наиболее подходящую версию документа, используйте везде, где это возможно, сайты на национальных доменах. У нас больше шансов узнать что контент на сайте в доменной зоне .de ориентирован на немецких пользователей, чем если бы вы разместили его в отдельной директории /de/ на своем сайте, или на поддомене de.site.com
  • Распространяйте контент с осторожностью - если вы синдицируете свой контент на другие сайты, убедитесь в том, что они ставят обратную ссылку на каждую из оригинальных статей в отдельности. Даже в этом случае имейте в виду, что в выдаче мы покажем ту версию, которую посчитаем наиболее подходящей, исходя из конкретного поискового запроса, и это может быть, а может и не быть предпочитаемая вами версия.
  • Указывайте предпочтительный домен для сайта - если другие сайты ссылаются на вас в вариантах с www и без в имени сайта, вы можете указать, какой из вариантов предпочтительнее для индексации
  • Старайтесь поменьше повторяться - например, вместо того, чтобы в конце каждой страницы помещать длинный текст об авторских правах, помещайте краткий текст со ссылкой на полную версию.
  • Избегайте публикации страниц-заглушек - пользователям не нравится смотреть на пустые страницы. Постарайтесь не публиковать страницы с отсутствующими обзорами товаров, списков и т.д. так, чтобы посетители вашего сайта (и поисковые роботы) не натыкались на миллионы однотипных пустых страниц "Здесь вы найдете обширный список квартир на продажу в (название города)".
  • Разберитесь со своей CMS - убедитесь, что вы знаете, как именно показывается контент на вашем сайте, особенно если на вашем сайте есть блог, форум или другие подобные системы, в которых зачастую один и тот же контент показывается несколько раз в разных форматах.
  • Не беспокойтесь лишний раз - не слишкой волнуйтесь о сайтах, которые воруют ваши тексты. Хотя это и раздражает, очень маловероятно, чтобы эти сайты могли отрицательно повлиять на ваши позиции в Google. Если вы столкнетесь с особо наглым и циничным воровством - отправьте нам DMCA request с притязаниями на авторство контента, и мы разберемся с воришками

15 февраля 2007, 14:49

Без темы


 Патроны кончились? Или патологическая нехватка времени? Этот блог ещё живёт?

Anonymous
15 февраля 2007, 22:04

Блог скорее жив, чем мертв


Однозначно будет продолжение. Ближайший выпуск сделаю уже к понедельнику.
Ну а дальше постараюсь хотя бы пару статей в месяц точно выкладывать.
Vital

Адрес заметки: http://gutorov.ru/blog/post_1166515450.html


Обязательные для заполнения поля выделены цыплячьим цветом.


Тема: 1 
имя: 1 
код:  
email: 2 


1. Не более 50 знаков.
2. При указании будет опубликован. Спам-роботам недоступен.
3. Адреса, начинающиеся с http:// преобразуются в ссылки автоматически.
    Для этого отделяйте их от текста ПРОБЕЛАМИ с обеих концов.
    Теги запрещены.


Что еще почитать:

Вадим Ласто -немного заумно, зато всегда по делу.
Дмитрий Давыдов - маркетинг в маленьком городе.
Николай Филев (GreenWood) - главный дорвейщик Рунета.
С.Л.Ш. -из Германии с любовью.

Рейтинг блогов






ноябрь 2006 г.
пн вт ср чт пт сб вс
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

декабрь 2006 г.
пн вт ср чт пт сб вс
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

январь 2007 г.
пн вт ср чт пт сб вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31



в начало
Page created in 0.00579 seconds