SEO: сделайте сканирование сайта как про

  1. Краткое описание:
  2. Что такое сканирование сайта и для чего оно?
  3. Какой инструмент позволяет сканировать мой сайт?
  4. Должен ли я взять бесплатный или платный сканер?
  5. Нужно ли иметь специальные знания для сканирования сайта?
  6. Как настроить сканер?
  7. Совет 1: Определите машину, с которой начнется сканирование.
  8. Совет 2: Установите скорость сканирования.
  9. Совет 3: Настройте User-Agent.
  10. Как лечить данные сканирования?
  11. Для чего нужны команды Linux?
  12. Куда писать заказы?
  13. Команды Linux, полезные для обработки данных сканирования
  14. Как анализировать данные сканирования?
  15. Анализ 1: Распределение страниц по коду ответа (HTTP-код)
  16. Анализ 2: Распределение страниц 200 по глубине
  17. Анализ 3: Скорость отклика страниц 200
  18. Анализ 4: Уникальность содержания страниц 200
  19. Анализ 5: Внутренняя сетка
  20. Анализ 6: Якоря ссылок
  21. Идти дальше
  22. Анализ 1: Распределение страниц по типу и юниверсу
  23. Анализ 2: Распределение страниц 200 по типу и коду ответа (HTTP-код)
  24. Анализ 3: Распределение страниц 200 по глубине и по вселенной
  25. Сделать вывод

Структура, структура и внутренняя сетка сайтов являются одними из основных проектов SEO , положительное влияние которых на видимость и трафик больше не должно демонстрироваться. В этом смысле сканирование сайта стало неизбежным, поскольку оно определяет структурные улучшения, которые нужно внести на ваш сайт. Осталось узнать, как это сделать и какими инструментами. В этой статье я покажу вам процедуру, которой нужно следовать.

Краткое описание:

1. Определение и цели сканирования
2. Какие инструменты для сканирования сайта?
3. Предпосылки для выполнения сканирования
4. Настройте сканер
5. Знать, как обрабатывать данные
6. Знать, как анализировать данные
7. заключение

Что такое сканирование сайта и для чего оно?


Термин « сканирование сайта» означает сканирование или просмотр сайта и извлечение как можно большего количества информации. Цель сканирования - знать структуру сайта и иметь то же видение, что и у Google . Это позволяет, в частности:

  • выявить проблемы с деревьями
  • чтобы найти проблемы внутренней сетки (плохое распределение популярности, наличие страниц-ловушек, наличие неработающих ссылок и т. д.)
  • знать время отклика сервера
  • идентифицировать дубликаты метатегов

Целью этого диагноза является внедрение рекомендаций, направленных на оптимизацию структуры сайта.

Какой инструмент позволяет сканировать мой сайт?


В настоящее время существует множество бесплатных и платных инструментов, которые могут сканировать сайт. Основными из них являются:

Давайте добавим, что платные комплекты SEO, как Расширенный веб-рейтинг , SeeUrank , Мос Также предлагаем гусеничный ход . Наконец, последняя демо-версия отличного бесплатного плагина Excel Инструменты SEO для Excel также содержит сканер, который извлекает данные непосредственно в Excel.

Должен ли я взять бесплатный или платный сканер?

На мой взгляд, основными отличиями бесплатных и платных инструментов являются:

  • Аутсорсинг сканирования . Некоторые платные инструменты сканируют свои платформы и используют свои IP-адреса. Бесплатные инструменты не делают этого
  • Платные инструменты дают больше информации, чем бесплатные инструменты, но небольшие сайты (которые не имеют более 500 - 1000 страниц) не обязательно нуждаются в этом
  • Платные инструменты более надежны и способны сканировать несколько сотен тысяч, даже миллионов URL-адресов.
  • некоторые платные инструменты объединяют данные сканирования, автоматически генерируют красивую графику и предлагают интерфейс анализа и отслеживания сканирования .

Совет: если ваш сайт маленький, используйте бесплатные инструменты, в том числе Xenu. Предоставленные данные будут в основном достаточными.

Нужно ли иметь специальные знания для сканирования сайта?


Как и любой анализ, анализ сканирования требует некоторых предварительных условий, но будьте уверены, иметь BAC +5 не стоит. Вы должны знать:

  • использовать Excel (применить фильтры сортировки, использовать сводные таблицы)
  • иметь некоторые основы в SEO, чтобы знать, что нужно анализировать (мы поговорим об этом позже в этой статье)
  • знать некоторые регулярные выражения для сайтов с большими объемами страниц (мы покажем их позже)

Как настроить сканер?


Поскольку у каждого сканера есть свои особенности, мы отсылаем вас к его параметрам . Однако мы можем дать вам несколько советов, которые могут оптимизировать исследование сайта и получить надежные данные.
Помните, что неправильная настройка искателя может вызвать несколько проблем, таких как блокировка IP-адреса или потеря данных. Если некоторые данные отсутствуют, ваш анализ и рекомендации не будут релевантными, что может оказать негативное влияние на видимость и посещаемость сайта.

Совет 1: Определите машину, с которой начнется сканирование.

Почему это важно?
Машина должна быть достаточно мощной, чтобы часами ползти без остановки. Если на вашем сайте очень мало страниц, ноутбука хватит. Если на вашем сайте 500 000 страниц, сканер должен запускаться с мощной машины, имеющей несколько десятков гигабайт памяти. Если вы используете сканер, который уже был передан на аутсорсинг, например Botify или Deep Crawl, у вас не будет проблем с машиной

Совет 2: Установите скорость сканирования.

Почему это важно?
Просматривая 15 URL-адресов в секунду, а не 2, сканирование будет выполняться намного быстрее, но:

  • вы рискуете сжечь свой IP-адрес, и если вы добавите его в сетку, у вас не будет никакой информации об URL
  • вы рискуете сбросить сайт, который вы сканируете
  • сканер может "забыть" проанализировать некоторые URL
  • Вы потребляете больше памяти своей машины, и если она недостаточно мощная, сканер может остановиться

Исходя из нашего собственного опыта, мы скажем, что анализ 2-3 URL в секунду - это хорошая скорость, если вы проходите через один IP-адрес.
Исходя из нашего собственного опыта, мы скажем, что анализ 2-3 URL в секунду - это хорошая скорость, если вы проходите через один IP-адрес

Совет 3: Настройте User-Agent.

Почему это важно?
Если вы хотите иметь то же видение, что и Google , вы должны пройти проверку подлинности на сайте, который вы сканируете как Googlebot . Вот почему я советую выбрать «Googlebot» в качестве агента пользователя в конфигурации сканера.

Как лечить данные сканирования?


Прежде чем анализировать данные, необходимо знать, как к ним относиться. Если ваш сайт небольшой, эта часть вас не касается, поскольку обработка данных, предоставляемая вашим сканером, будет выполняться в Excel без каких-либо проблем. Вы можете перейти непосредственно к анализу данных. Если вы используете сканер SaaS или работаете на стороне, есть большая вероятность, что его издатель обработает данные для вас. Эта часть вас не касается. С другой стороны, если на вашем сайте много страниц (более 50 000), Excel может не открывать экспортированные CSV-файлы или работать в замедленном режиме (это также зависит от вашего компьютера). Обработка данных будет осуществляться с помощью команд Linux или DOS. Сегодня мы сосредоточимся только на командах Linux.

Для чего нужны команды Linux?

Как вы понимаете, эти команды используются для обработки данных. Не открывая файл экспорта, который часто имеет формат .csv, вы можете сортировать, исключать, включать, группировать данные по своему усмотрению.

Куда писать заказы?

Если вы используете Windows или Mac, вам необходимо загрузить консоль Linux. Вы можете использовать, например, Cygwin на машине с Windows. Если вы используете Linux, вы можете использовать консоль по умолчанию. После установки откройте консоль, дважды щелкнув по ней.

Команды Linux, полезные для обработки данных сканирования

Команды, которые мы приведем, являются наиболее используемыми. Это не исчерпывающий список.
Команда 1: Подсчет количества URL-адресов в CSV-файле

cat name-of-your-file.csv | grep http: // | туалет

Команда ищет все, что содержит http (grep http: //) в вашем файле (cat-name-of-your-file) и подсчитывает, сколько раз http повторяется (wc)
Команда 2: найдите все URL, которые содержат что-то (каталог /, который вы ищете /, .html, код 200 и т. Д.) И экспортируйте их
Команда ищет все URL с расширением .jpeg (grep .jpeg) в вашем файле (cat filename-file) и экспортирует их (> filename-export.csv)
Команда 3: найдите URL-адреса, их атрибуты (<title>, <h1>, код ответа, количество ссылок и т. Д.) И экспортируйте все в файл csv

cat name-of-your-file.csv | grep http: // | awk -F '","' '{print $ 1 "" $ 22}'> filename-export.csv

Малая точность: число, которое появляется после $, указывает номер столбца, в котором находятся данные, которые вы хотите экспортировать. Если URL-адреса находятся в столбце 1, а их <title> - в столбце 22, я пишу: print $ 1 $ 22. Порядок отображения данных меняется в зависимости от сканера.
Команда 4: Найдите URL-адреса, кроме тех, которые содержат что-то, их атрибуты и экспортируйте все в CSV-файл.
Эта команда полезна, когда вы хотите исключить из анализа определенные URL-адреса, например, те, которые содержат определенный параметр (разбиение на страницы, отслеживание кода, фильтр сортировки и т. Д.)

cat name-of-your-file.csv | sed '/ tracking = / d' | sed '/ id = / d' | sed '/ оцененный / d' | grep -E http://www.site.com/en/category/.* | awk -F '","' '{print $ 1 "" $ 22}'> filename-export.csv

Команда запрашивает файл name-of-your-file.csv. Он ищет все URL, начинающиеся с http://www.site.com/category/. Он также ищет атрибут, отображаемый в столбце 22 URL-адресов, начинающихся с http://www.site.com/category/, но не учитывает URL-адреса, начинающиеся с http://www.site. .com / ru / category / AND с отслеживанием =, id =, цена.

> Чтобы завершить чтение: Изучите другие полезные команды Linux в SEO (статья на английском)

Как анализировать данные сканирования?


Мы подошли к самой интересной части, анализу сканирования . Как это сделать? Если вы используете сканер в режиме SaaS, вам не нужно создавать диаграммы и графики, этот сканер сделает это за вас. Если вы не используете этот формат приложения, вот что нужно сделать.
В файле Excel, содержащем данные экспорта, создайте сводную таблицу на новой вкладке, указав экспортированные данные в качестве источника. Затем в сводной таблице проверьте данные по мере необходимости

Анализ 1: Распределение страниц по коду ответа (HTTP-код)

Почему этот анализ
Почему этот анализ?

  • знать процент страниц в 200, в 301, 302 или 404
  • выявить структурные проблемы

Анализ 2: Распределение страниц 200 по глубине

Почему этот анализ
Почему этот анализ?

  • рассчитать среднюю глубину страницы
  • знать количество глубоких страниц

Анализ 3: Скорость отклика страниц 200

Почему этот анализ
Почему этот анализ?

  • рассчитать среднее время отклика
  • знать процент медленных страниц

Анализ 4: Уникальность содержания страниц 200

Почему этот анализ
Почему этот анализ?

  • определить процент 200 страниц с дубликатами или отсутствующими тегами <title> и <meta description>
  • определить процент 200 страниц с дублированием или отсутствием <h1>

Анализ 5: Внутренняя сетка

Почему этот анализ
Почему этот анализ?

  • определить среднее количество исходящих ссылок на страницу
  • идентифицировать страницы с более чем 150 исходящими ссылками (Google рекомендует иметь около 100 исходящих ссылок)
  • знать, какие страницы получают больше всего ссылок
  • знать, какие страницы 404 или 302 получают ссылки

Анализ 6: Якоря ссылок

Почему этот анализ
Почему этот анализ?

  • выяснить, получают ли страницы внутренние входящие ссылки с соответствующими якорями
  • выясните, какие анкеры используются чаще всего

Идти дальше

Анализ сканирования может на этом остановиться, но он пропускает 2 основных измерения: группировка страниц по типу и по юниверсу . Типом страниц может быть домашняя страница, страница юниверса, страница категории, страница подкатегории, страница продукта и т. Д. Вселенные - это семейства продуктов, которые вы продаете (IT, 5-звездочные отели и т. Д.) Или темы вашего сайта (экономика, спорт, благополучие и т. Д.). Категоризация может быть выполнена несколькими способами:

  • полуавтоматически : в файле Excel, который содержит все URL-адреса, вы можете применить формулу SEARCH, которая позволяет найти URL-адреса, содержащие элемент, позволяющий идентифицировать тип страниц и / или его юниверс. Например, = SEARCH ("/ sport /"; A2; 1) выведет URL-адреса юниверса "Sport"

Например, = SEARCH (/ sport /; A2; 1) выведет URL-адреса юниверса Sport

  • автоматически : через скрипт PHP (очень быстро, если вам нужно классифицировать несколько тысяч страниц)

Когда у вас есть эти 2 измерения, вы можете включить их в анализ, предложенный выше, что обеспечит дополнительный уровень точности.
Вот несколько примеров анализа страниц, отсортированных по типу и / или юниверсу.

Анализ 1: Распределение страниц по типу и юниверсу

Анализ 1: Распределение страниц по типу и юниверсу

Анализ 2: Распределение страниц 200 по типу и коду ответа (HTTP-код)

Мы можем видеть, какой тип страницы имеет больше 404 страниц, вот страницы продукта
Мы можем видеть, какой тип страницы имеет больше 404 страниц, вот страницы продукта.

Анализ 3: Распределение страниц 200 по глубине и по вселенной

Здесь мы обнаруживаем, что страницы вселенной «ТВ» и «Аудио» меньше, чем страницы других вселенных

Здесь мы обнаруживаем, что страницы вселенной «ТВ» и «Аудио» меньше, чем страницы других вселенных. Если эти продукты сообщают больше всего, это нормально, но если это продукты вселенной «Благосостояние», которые генерируют наибольшее количество оборотов, необходимо уменьшить их глубину.

Сделать вывод


В этой статье подчеркивается важность сканирования в стратегии SEO . Более или менее сложный в зависимости от размера сайта, этот анализ позволит вам определить оси оптимизации с высокой добавленной стоимостью. Помните, что данные, предоставленные вашим сканером, должны храниться, отслеживаться и анализироваться с течением времени, что означает, что вы должны регулярно сканировать свой сайт, чтобы выявлять тенденции и знать его здоровье на протяжении всей его жизни.
Хотите узнать больше о сканировании вашего сайта? Свяжитесь с нашими SEO специалистами JVWEB