Извлечение структуры сайта с использованием хлебных крошек

Хлебные крошки на сайте часто отображают иерархию категорий и разделов. Извлекая эти данные, можно восстановить структуру сайта, даже если URL-структура не иерархическая.

Шаг 1: Откройте страницу с хлебными крошками

  • Найдите страницу на сайте, которая имеет четко структурированные хлебные крошки. Обычно они находятся в верхней части страницы или в ее начале.
  • Например, хлебные крошки могут выглядеть как навигация типа: Главная > Каталог услуг > Услуга.

Шаг 2: Анализ HTML-кода страницы

  • Перейдите на нужную страницу и нажмите правой кнопкой мыши на хлебные крошки.
  • Выберите Inspect или Посмотреть код (зависит от браузера), чтобы открыть инструменты разработчика.

Шаг 3: Найдите элемент хлебных крошек

  • В панели инструментов разработчика найдите элемент, который соответствует хлебным крошкам. Он обычно представлен как тег <div>, <nav>, или <ul>.
  • Например, может быть тег, который содержит список ссылок, разделенных стрелками или другими символами.

Шаг 4: Копирование XPath

  • Щелкните правой кнопкой на нужном элементе в коде HTML и выберите Copy > Copy XPath. Это скопирует путь к элементу в формате XPath, который будет использоваться для извлечения данных в Screaming Frog.

Шаг 5: Настройка Screaming Frog для извлечения данных

  • Вернитесь в Screaming Frog и перейдите в меню Configuration > Custom Extraction.
  • В открывшемся окне нажмите Add Extraction и выберите XPath.
  • Вставьте скопированный XPath в поле XPath.
  • Убедитесь, что установлено правильное значение Extraction Type (обычно Extract Text, чтобы получить текст из хлебных крошек).
  • Нажмите OK, чтобы сохранить настройку.

Шаг 6: Запуск парсинга с извлечением данных

  • Вернитесь в основной интерфейс Screaming Frog и снова запустите сбор данных (кнопка Start).
  • Теперь программа будет собирать не только стандартную информацию о страницах, но и данные, которые вы указали для извлечения, например, хлебные крошки.

1. Обработка данных

  • После завершения сканирования вы увидите список собранных страниц в программе.
  • Перейдите на вкладку Custom в нижней части интерфейса, чтобы увидеть результаты извлечения.
  • В этой вкладке будут отображаться данные, извлеченные по вашему XPath, например, текст хлебных крошек.

2. Экспорт данных

  • Чтобы использовать собранные данные, экспортируйте их в формат Excel или CSV.
  • Для этого перейдите в меню File > Export.
  • Выберите формат, например, CSV или Excel и сохраните файл на своем компьютере.

3. Редактирование и анализ структуры

  • Откройте экспортированные данные в Excel или Google Sheets.
  • Используйте полученную информацию для анализа и восстановления структуры сайта.
    • Вы можете видеть, какие разделы сайта в каком порядке расположены.
    • На основе данных можно объединить разделы, добавить новые или изменить существующие.

4. Дополнительные настройки и улучшения

  • В случае, если структура сайта сложная или динамическая (например, уникальные ID для каждого элемента), вам может понадобиться настроить более сложные XPath или CSS-селекторы для точного извлечения данных.
  • Также Screaming Frog позволяет собирать и другие элементы, такие как заголовки страниц (H1), метатеги, ссылки и изображения. Это можно настроить в разделе Configuration > Custom Extraction, используя аналогичный подход.

5. Применение полученных данных

  • После того как вы восстановите структуру с помощью Screaming Frog, используйте полученную информацию для:
    • Проектирования структуры нового сайта или доработки структуры существующего.
    • Изучения конкурентов и их структуры для улучшения SEO.
    • Оптимизации сайта для лучшей индексации и навигации.