Как работает краулер?

Сканирование веб-сайтов работает путем (программной) загрузки HTML-содержимого веб-страницы и извлечения внутренних ссылок из HTML до тех пор, пока не будут найдены новые ссылки.

Упрощенная версия процесса выглядит так;

  1. Сканер посещает начальный URL (обычно домашнюю страницу).
  2. Загружается HTML-контент с домашней страницы и извлекаются ссылки <a href>
  3. URL-адреса из каждой извлеченной ссылки добавляются в очередь сканирования.
  4. Сканер выбирает URL из очереди сканирования.
  5. HTML-контент с этого URL-адреса загружается, и извлекаются ссылки <a href>
  6. Все новые URL-адреса из извлеченных ссылок добавляются в очередь сканирования.

Шаги 4-6 повторяются до тех Данные о телефонных номерах в Великобритании  пор, пока не будут обнаружены новые URL-адреса, после чего полный процесс обнаружения URL-адресов будет завершен. Сканер продолжит работу по оставшимся URL-адресам для загрузки HTML-контента.

Помимо внутренних ссылок, сканер также извлекает ключевую информацию из HTML-кода каждой страницы, которую затем использует для формирования данных сканирования веб-сайта.

Выполнение полного сканирования

 

Данные о телефонных номерах в Великобритании

При выполнении полного сканирования веб-сайта вы не хотите ограничивать сканер, вы хотите позволить ему найти как можно больше (единственное исключение — если вы хорошо знаете веб-сайт и знаете, что хотите исключить определенные разделы ). Затем вы можете просмотреть данные и выяснить, какие части вам на самом деле не нужны.

Это означает, что вы предоставляете сканеру все возможные источники сканирования, включая:

Google Аналитика

Добавление данных Google Analytics означает, что по завершении аудита у нас будут точные данные об органическом трафике Доставка контента — где и как находятся активы и ключевых показателях вовлеченности.

Обязательно отметьте опцию извлечения и сканирования URL-адресов, найденных в Google Analytics.

Консоль поиска Google

Добавление данных Google Search Console означает, что по завершении аудита у нас будут точные данные об органических рейтингах, кликах и показах.

Обязательно отметьте опцию извлечения и сканирования URL-адресов, найденных в Google Search Console.

XML-карты сайта

Добавьте все XML-файлы Sitemap, которые существуют для веб-сайта.

Суть здесь в том, чтобы попытаться включить в список все URL-адреса, существующие на сайте, чтобы в итоге получить большой длинный список всех URL-адресов на сайте.

Фильтрация нежелательных страниц

Для целей аудита контента вас, как правило, интересуют только те страницы, которые индексируются , то Дания телемаркетинг лиды есть поисковые системы могут индексировать и потенциально включать эти страницы в свои результаты поиска.

Индексируемые страницы:

  • URL-адреса, возвращающие код статуса 200
  • URL-адреса, не имеющие канонического указателя на другой URL-адрес
  • URL-адреса, не содержащие директиву noindex robots.
  • URL-адреса, которые не запрещены в robots.txt
Вы можете легко фильтровать индексируемые URL-адреса с помощью URL Explorer Sitebulb .

На этом этапе у вас будет отфильтрованный список всех URL-адресов, которые вы хотите рассмотреть, а также важные количественные данные:

  • Заголовок, h1 и метаописание
  • Количество слов в содержании
  • Глубина сканирования URL-адреса
  • Количество внутренних входящих ссылок (+ URL Rank )
  • Данные о посещениях и взаимодействии (из GA)
  • Данные о рейтинге, кликах и показах (из GSC)

На этом этапе вам нужно будет экспортировать эти данные в формат электронной таблицы, чтобы добавить дополнительные качественные слои. Вы также можете захотеть дополнить данные дополнительными сторонними метриками, такими как данные обратных ссылок Majestic или Ahrefs .

Дополнительные столбцы, которые вам нужно будет добавить, могут включать:

  • Тип контента
  • Персона покупателя
  • Стадия покупателя

Заполнение этих данных потребует разумного объема ручной проверки, хотя вскоре вы начнете замечать закономерности в путях URL, которые помогут вам принимать массовые решения.

В конечном итоге это должно выглядеть примерно так

Оценка ваших данных

Наконец, вам также нужно будет добавить столбец «Рекомендация», который затем следует заполнить одним из четырех вариантов статуса, определенных нами ранее.

Используя все собранные вами данные, дайте оценку каждой странице и присвойте ей один из следующих статусов:

  • Держать
  • Улучшать
  • Консолидировать
  • Удалять

Обычно также полезно иметь рядом колонку «примечания/инструкции», чтобы добавить рекомендации больше глубины и ясности.

Это самый трудоемкий шаг, но также и шаг с наибольшим потенциальным влиянием. Рекомендации, сделанные на этом этапе процесса, помогут определить вашу стратегию контента на уровне страницы в будущем.

Мы рассмотрим каждый из вариантов, чтобы помочь вам понять, какой из них лучше всего подходит для каждой страницы;

Держать

Выберите этот вариант, когда страница соответствует ожиданиям и не требует никаких изменений. Это тот случай, когда содержимое страницы остается актуальным и не требует обновления для приведения его в соответствие с текущими требованиями.

Распространенные примеры: тематические исследования, вечнозеленый «столповый» контент, часто задаваемые вопросы, последние записи в блогах

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top