Здесь я пишу о том, что мне интересно

Всегда в топе

· профессиональный аудит сайтов
· теория работы поисковых систем
· консультации по всем этапам продвижения
· блокады сайта фильтрами поиска
· стратегии непоискового и вирусного продвижения
· настройка компаний контекстной рекламы
· корпоративные аккаунты в соцсетях
· вывод сайтов из под санкций Google
· индивидуальное обучение

октябрь 12, 2016, 18:16

Найти и обезвредить! 8 причин появления дублей на сайте.




Тема качества контента продолжает оставаться одной из самых актуальных. Поэтому в этой статье рассмотрим, как быстро и легко выявлять дублирование контента на сайтах, а также что с этим делать.

Это важный вопрос потому, что подобные материалы - как перерасход бюджета. Только в случае с сайтом речь про «бюджет доверия» поискового робота к вашему сайту.

Представим, что на одном домене есть несколько страниц, контент на которых повторяется. В такой ситуации робот попробует определить: где первоисточник, а какая страница стала дублером. Но определить это со 100% достоверностью получается далеко не каждый раз, поэтому в результатах поиска отобразится URL-дублер, а не оригинал.

Если таких повторов много, то в будущем сайт может быть понижен в результатах выдачи. Основанием будет нарушение требований Google к качеству контента. Увы, но от дублирования не спасают ни панель вебмастера в Google Search Console, ни другие инструменты. Искать нужно вручную.

Чтобы сократить время и спасти поисковую репутацию сайта, обратите внимание на 8 причин, из-за которых появляются дубли на сайте!

№1. Вы переехали с HTTP на HTTPS



Неграмотный перевод сайта на SSL - одна из самых частых причин дублирования контента.

Самый простой способ найти дубли: вводить в адресную строку ссылку на страницу с HTTP и с HTTPS. Определяется просто: если доступ есть к обеим версиям, значит при переезде не использовался 301 редирект или он реализован неграмотно.

Есть еще один нюанс: на безопасном протоколе могут оказаться отдельные страницы сайта, а не весь ресурс. Еще до того, как в Google пропагандировали перевод на HTTPS, они включали протокол шифрования только для определенных страниц (где находится вход на сайт или проводятся транзакции).В таком случае к ним применяются относительные ссылки, система дополняет недостающие компоненты, а значит всякий раз во время обхода сайта поисковый робот будет индексировать такую страницу как новую. Поэтому через некоторое время в индексе поисковой системы просто появятся дублирующие страницы.

Кстати, очень полезно проверять наличие в индексе версий страниц с www и без www. Если есть такой дубль, используйте код состояния HTTP 301. Также помогает указание в Google Search Console основного домена.

№2. Есть домены, про которые вы забыли



Представим ситуацию: вебмастер отказался от использования поддомена и работает с поддиректорией. Или другой вариант: у компании новый сайт, на нем кипит все онлайн-жизнь, но контент перенесен со старого ресурса. В обоих случаях содержимое прежних ресурсов до сих пор есть в интернете, поэтому может сыграть неприятную шутку с новым сайтом.

Поэтому нужно использовать редирект 301 на страницах старого сайта, особенно, если на этой версии есть много качественных входящих ссылок.

№3. Есть зеркала сайта



Крупный бизнес с представительствами в нескольких регионах вынужден заказывать создание нескольких идентичных версий сайта, предпочитая, чтобы в выдаче появлялась одна главная страница с предложением перейти на сайт в нужном регионе.

Обычно это выглядит так:

· адрес-сайта.com/ru

· адрес-сайта.com/de

· адрес-сайта.com/fr

· и так далее

Это простое и логичное решение, но оно требует тщательной настройки. Дело в том, что все материалы в поддиректориях на региональных версиях однородны по содержанию и структуре. Это может приводить к ошибкам во время индексирования.

Чтобы этого не произошло, нужно грамотно настроить в Google Search Console таргетинг содержания сайта на выбранные регионы.

№4. Вы не защищаетесь от сайтов, которые копируют чужой контент



К сожалению, в интернете до сих пор нет адекватной политики регулирования отношений между разными сайтами в вопросе заимствования контента. Поэтому есть смысл использовать доступные способы защиты материалов со своего ресурса, и делать это на уровне кода. Также помогает использование постоянных URL-ов вместо динамических (об этом поговорим дальше). Когда используются относительные ссылки, браузер будет пытаться перейти по ним и заново открыть страницу. В таком случае пользователь видит одну и ту же страницу, но с разными ссылками. С точки зрения индексирования в Google это не самый полезный подход.

Поэтому важно, чтобы разработчик писал код сайта с указанием предпочитаемой версии URL адреса для страницы и с добавлением rel="canonical". Иначе копирования контента просто не избежать. Когда в коде указана каноническая страница, то при копировании и повторном размещении этого контента на сторонних ресурсах теги «намекнут» поисковой системе, на какой именно канонический адрес идет ссылка от дубликатов. Еще один приятный момент: показатель PageRank и другие связанные сигналы также будут переноситься на каноническую страницу.

Чтобы найти свой контент на других сайтах, используйте Siteliner и Copyscape.

№5. Есть динамически генерируемые параметры в URL страниц



Как это выглядит:

· URL 1 может выглядеть так: сайт.com/страница

· URL 2 этой же страницы может выглядеть так: сайт.com/страница%8in

· а URL 3 этой же страницы может быть таким: сайт.com/страница%8in=marble

Конечно, это утрированный вариант, но в реальности распространенные CMS действительно автоматически «плодят» дублированные страницы, добавляя в URL разные параметры. В результате не сайте появляется несколько страниц с одинаковым содержимым. Когда будут выявлены адреса таких страниц, алгоритм Google объединит их в общую группу. Дальше система выберет одну из них для отображения в поисковой выдаче, но сделает это на свое усмотрение. После этого Google, используя имеющуюся информацию об этой URL-группе, присвоит выбранной ссылке некоторые атрибуты - это нужно для уточнения рейтинга страницы в поисковой выдаче.

Такого сценария можно избежать - рекомендуется задавать канонический URL и прописывать системе правила обработки URL c определенными параметрами. Это делается в Google Search Console с помощью инструмента «Параметры URL».

Помните, содержание отдельных страниц можно закрывать от индексации в файле robots.txt - для этого в шаблоне запрета нужно использовал символ «*» Как пример: Disallow: /страница/*

№6. Открытость содержимого среды разработки



Когда сайт находится в процессе реконструкции, нужно закрывать от индексации содержимое среды разработки. Поисковые роботы Google постоянно и регулярно посещают ресурс и могут сканировать содержимое, даже если выставлен статус «в разработке». Также нужно закрывать от индексации любые внутренние материалы, которые не должны попасть в результаты поисковой выдачи.

Это делается с помощью кода <meta name="robots" content="noindex">. Другой вариант - прописать запрет на индексацию в файле robots.txt.

Делайте контент доступным для индексации только после того, как все элементы и контент сайта будут перенесены на домен из среды разработки.

№7. Есть синдикация контента



Речь про способ наполнения сайта, когда автор или редактор другого ресурса разрешает частично или полностью разместить свой контент на вашем сайте. Способ признали достаточно эффективным для быстрого привлечения целевой аудитории, но если вы его практикуете, нужно соблюдать некоторые меры предосторожности:

· если контент изначально писался для размещения на сайте компании, но автору разрешено публиковать его на своем ресурсе, лучше попросить его использовать атрибут rel="canonical";

· контент для синдикации лучше закрыть в первоисточнике от индексации с помощью <noindex>, чтобы избежать дублирования;

· не будет лишним, если издатель, который «подарил» сайту материал, будет ссылаться на ваш ресурс как на первоисточник.

№8. Есть материалы, которые почти не отличаются друг от друга



Алгоритмы Google часто не отличают дублированный контент и похожее содержимое страниц. Посмотрите определение повторяющегося контента от представителей Google и вы поймете, как появился этот аспект.

Поэтому важно научиться быстро находить блоки информации в рамках одного или нескольких доменов, в которых содержимое полностью идентично или почти не отличается. Объединяйте близкие по смыслу блоки содержимого в рамках одной страницы - так у вас не появится схожий контент. Если вы не можете этого сделать, пометьте копии с помощью атрибута rel="canonical".

Последние выводы



Используйте все доступные методы, чтобы выявить дублирующийся контент на страницах. Если структура сайта изменена, используйте переадресацию 301. Не пренебрегайте использованием параметров nofollow/noindex внутри мета-тега «robots», но делайте это разумно, потому что Google не рекомендует блокировать доступ поисковым роботам к повторяющемуся контенту с помощью файла robots.txt. Лучше разрешить сканирование страниц, но отметить их как точные копии с помощью rel=»canonical». Также для этого можно использовать инструменты обработки параметров URL или переадресацию 301.



Использована работа "Duplicates"
Credits: Pelle Sten





Поделитесь постом

f t                                                                         

Вам будет интересно

Если вас заинтересовали мои услуги


Мои расценки


Аудит сайта
от $900
срок исполнения 6 рабочих дней


Консультация
$200-$400 в час
в рабочее по Москве время


Мои реквизиты


ИП Смирнов Евгений Дмитриевич
св-во №309343525900080
выдано 16 сентября 2009
ИНН: 344100235769
КПП: 344402001
Расчетный счет: 40802810831000379201
Кор. Счет: 30101810100000000715
БИК: 041806715
Банк: Южный ф-л ПАО «Промсвязьбанк», г.Волгоград

TOP