Обнаруживать и избегать дублирования внутреннего содержимого

  1. Почему дублированный контент является проблемой?
  2. Как создается внутренний дублированный контент?
  3. Вот несколько примеров по техническим причинам:
  4. Причина: http против https
  5. Причина: завершающие слэши
  6. Причина: прописные и строчные URL
  7. Причина: функции фильтра в интернет-магазинах
  8. Причина: множественная категоризация товаров в интернет-магазине
  9. Причина: перезапуск или перемещение домена
  10. Причины содержания
  11. Причина: очень похожие или идентичные описания продуктов
  12. Причина: внутренние страницы результатов поиска
  13. PDF-версии сайтов не дублируют контент
  14. XOVI Onpage Tool поможет вам найти дублированный контент
  15. вывод

Важной мерой на странице, которая должна быть реализована в контексте поисковой оптимизации, является предотвращение дублирования контента (DC). Это контент, доступ к которому можно получить по разным URL. Таким образом, существует одна или несколько «копий» документа. Google хочет запретить отображение нескольких страниц одного и того же контента в результатах поиска. Поэтому важно сообщить поисковой системе, какой URL является оригиналом, а какой - копией.

Сколько DC является проблемой для Google, является спорным. Но ясно, что правильная индексация страниц является преимуществом, и индексация страниц не должна быть сложной.

Почему дублированный контент является проблемой?

Дублированный контент может быть вредным, потому что Google предпочитает уникальный контент. Требование поисковой системы состоит в том, чтобы показывать своим пользователям наилучшие результаты поиска по каждому поисковому запросу и, таким образом, удовлетворять потребности поисковиков - высокий стандарт, которого Google пытался достичь с помощью различных мер, и он стал все лучше и лучше в последние годы. Если разные URL-адреса теперь имеют одинаковое или очень похожее содержимое, алгоритм больше не может определить, какой URL-адрес является наиболее релевантным и относится к результатам поиска. В результате часто происходит низкая производительность обоих URL-адресов, или Google постоянно переключается между URL-адресами на страницах результатов поиска (SERP). Поэтому для действительно хорошего контента последовательное ранжирование невозможно.

Другим проблемным фактором является бюджет обхода. Каждый день Google сканирует миллионы сайтов. В зависимости от размера, качества и важности веб-сайта, оцениваемого Google, Google предоставляет каждому веб-сайту бюджет на количество посещенных страниц при посещении робота Google. Даже с Google, пропускная способность гусеницы не безгранична. Бюджет сканирования не будет объявлен - существует ограничение на посещение. Поэтому, если у вас есть контент по нескольким URL-адресам, вы напрасно тратите свой бюджет на сканирование, потому что Google сканирует эти страницы, и вы можете даже не посетить важные подстраницы, когда достигнете предела. Избежание или удаление дублирующегося контента также помогает Google сканировать действительно важные страницы и включать их в индекс.

Как создается внутренний дублированный контент?

Причинами возникновения DC являются, с одной стороны, нахождение идентичного содержимого (например, одинаковые описания продуктов для вариантов продуктов в интернет-магазине), или технические вещи приводят к проблеме, которую можно избежать.

Вот несколько примеров по техническим причинам:

Причина: WWW против не WWW

http://www.domain.de против http://domain.de

Решение : выберите вариант и перенаправьте нежелательную версию с помощью пересылки 301 на предпочтительную версию. Кроме того, вы также должны указать в консоли поиска Google, которая является вашей предпочтительной версией.

Причина: http против https

http://www.domain.de против https://www.domain.de

Решение : если у вас есть SSL-сертификат для безопасной передачи данных, то ваши URL изначально обе версии, обе с http, а также с https , достигать. Перенаправьте страницы http на защищенные URL-адреса https с помощью перенаправления 301.

Причина: завершающие слэши

http://www.domain.de против http://www.domain.de/
Косая черта в конце URL фактически указывает на каталог. Вы должны избегать этих слешей в конце, потому что предлагается каталог, который больше не существует.

Решение . Часто вы не сразу распознаете эту ошибку, поскольку браузер принимает обе версии и отображает страницы без проблем. В конце, как правило, перенаправьте версию с косой чертой на версию без косой черты через переадресацию 301.

Просто введите следующие строки в файл .htaccess:
RewriteCond% {REQUEST_URI} ^ (. *) // (. *) $
RewriteRule. % 1 /% 2 [R = 301, л]

Мэтт Каттс, бывший сотрудник Google Spam Team, прокомментировал видео:

Причина: прописные и строчные URL

Пример: / блог / новая статья против / блог / новая статья

Решение : Опять же решение в пересылке 301 переадресация на нужную версию.

Причина: функции фильтра в интернет-магазинах

В интернет-магазинах часто встречаются отдельные товары в разных вариантах. Для одежды з. Например, есть различия по размеру и цвету. Часто выбор для клиента упрощается, так что он может устанавливать фильтры для различных функций продукта. Кто-то хотел бы Например, если вы ищете красные туфли в магазине обуви, красные туфли вы увидите только при использовании соответствующего фильтра. Техническим следствием является то, что отфильтрованный обзор продукта воспроизводится с другим URL. Содержание однако идентично.

Страница категории без фильтра: https://www.zalando.de/damenschuhe/

de/damenschuhe/

Страница категории с фильтром красного цвета: https://www.zalando.de/damenschuhe/_rot/

de/damenschuhe/_rot/

Решение 1. Если это возможно в вашей системе магазинов, исключите категорию из URL-адреса страницы сведений о продукте.

Пример: www.shop.de/kategorie/produkt >> www.shop.de/produkt
Эти страницы сведений о продукте могут быть отсортированы по любому количеству категорий. Уникальный URL не создает дублированный контент. Заландо выбрал это решение

Решение 2. Эту проблему довольно легко решить, в которой в исходный код страницы фильтра встроена так называемая каноническая метка со ссылкой на нефильтрованную категорию. Это сигнализирует поисковой системе, что это «разыскиваемая» копия. Google не должен рассматривать эту страницу, но продолжать включать исходную страницу в индекс. На это ссылается Canonical Link. В нашей вики мы объяснили, что такое каноническая ссылка.

Причина: множественная категоризация товаров в интернет-магазине

Часто желательно, чтобы товар был указан в нескольких категориях магазинов. Поэтому может иметь смысл перечислить товар в соответствующем подразделении, затем в разделе «Продажи», если это специальное предложение, и в разделе «Новинки», если товар только что поступил в продажу.

Решение 1. Если это возможно в вашей системе магазинов, исключите категорию из URL-адреса страницы сведений о продукте.

Пример: www.shop.de/kategorie/produkt >> www.shop.de/produkt
Эти страницы сведений о продукте могут быть отсортированы по любому количеству категорий. Уникальный URL не создает дублированный контент.

Решение 2. Если ваша система магазинов не поддерживает решение 1, вы также можете установить здесь ссылку Canonical. На www.shop.de/kategorie1/produkt будет установлена ​​каноническая ссылка на www.shop.de/kategorie2/produkt.

Причина: перезапуск или перемещение домена

Если вы изменили дизайн своего веб-сайта или создали новый веб-сайт и теперь перезапускаетесь с новой структурой URL, или вы перемещаете свой контент в новый домен, возможно, будет создан дублированный контент. Предыдущая версия URL-адресов все еще доступна и все еще находится в индексе Google с хорошим рейтингом.

Решение . Перенаправьте старые URL-адреса на соответствующие новые страницы с помощью перенаправления 301, чтобы при поиске Google обнаруживал новый «адрес» контента.

Причины содержания

Есть также действительно существенные причины для дублирующегося контента, о котором идет речь. Вот несколько примеров:

Причина: очень похожие или идентичные описания продуктов

Решение . В крупных магазинах вы не сможете полностью предотвратить дублирование контента на уровне продукта. Сосредоточьте свою оптимизацию на страницах категорий. На уровне продукта вы идентифицируете свои ТОП продукты с наибольшим объемом продаж или наибольшей наценкой. Напишите качественные и уникальные описания продуктов здесь.

Причина: внутренние страницы результатов поиска

Многие сайты предлагают своим посетителям внутренний поиск. Страницы результатов этого внутреннего поиска также имеют свой собственный URL, но их содержание аналогично другим документам.

Решение : не позволяйте Google индексировать эти страницы, пометив их метатегами «noindex». Google найдет эти страницы, но не в индексной записи. Таким образом, никакой DC не может возникнуть здесь.

PDF-версии сайтов не дублируют контент

Некоторые веб-сайты предлагают своим посетителям возможность загрузки содержимого страницы в формате PDF. Естественно, в PDF можно найти тот же контент, что и в веб-версии. Долгое время было распространено мнение, что это также случай дублированного контента, так как PDF-файлы также индексируются Google.

Google Google недавно подтвердил, что Google понимает эту связь между веб-версией и PDF-версией и что здесь нет проблемы с дублированным контентом. Поэтому никаких действий предпринимать не нужно.

Вот твит от Джона Мюллера как ответ на вопрос Дэвида Батлера.

XOVI Onpage Tool поможет вам найти дублированный контент

В XOVI Suite это поможет вам На странице поисковой системы При поиске контента, который может быть достигнут по двум или более URL.

На странице обзора анализа на странице прокрутите вниз, чтобы увидеть список «ошибок, подсказок и советов». Если на вашем сайте есть проблема с DC, она будет отображаться в списке на вкладке «Ошибка»:

Если на вашем сайте есть проблема с DC, она будет отображаться в списке на вкладке «Ошибка»:

Затем либо щелкните примечание об ошибке или номер (здесь 20), чтобы получить список затронутых URL-адресов.

Затем либо щелкните примечание об ошибке или номер (здесь 20), чтобы получить список затронутых URL-адресов

Затем выберите URL, который вы хотите изучить. Затем они переходят на страницу просмотра URL-адреса. Прокрутите вниз до виджета « Дублированный контент ». Затем инструмент XOVI показывает URL-адреса с одинаковым содержанием.

Затем инструмент XOVI показывает URL-адреса с одинаковым содержанием

Затем проанализируйте причину и устраните проблему.

вывод

Избегание одного и того же контента на разных сайтах является важной задачей SEO. Хорошо, что в отличие от других мер SEO, вы не зависите от третьих лиц, но можете выполнить эту оптимизацию самостоятельно. Тем не менее, некоторые технические ноу-хау не требуется.