Общая инвентаризация содержимого по URL
Инвентаризация начинается с определения доступных типов ресурсов по указанному URL и фиксации первичного HTTP‑ответа. В текстовом описании следует указать, какие документы возвращаются напрямую (HTML), какие ресурсы доступны по подурлам (изображения, аудио, видео, архивы) и есть ли встроенные сервисы через iframe или виджеты. Для документирования можно ссылаться на сам указанный URL в тексте как «по указанному URL», без раскрытия адреса; дополнительные сведения можно найти Здесь.
При первичном сканировании фиксируются MIME‑типы, размеры файлов и доступность загружаемых ресурсов. Примеры технических параметров: статус 200/301/404, Content‑Type типа text/html или image/jpeg, и заголовок Content‑Length, указывающий размер в байтах.
Категории доступных ресурсов: текст, изображения, аудио/видео, файлы для скачивания и встроенные сервисы
Текст представлен основным HTML, дополненным статическими JSON/CSV/JS‑файлами. Изображения встречаются в форматах JPEG, PNG, WebP; у видео — контейнеры MP4 или WebM, у аудио — MP3/AAC. Файлы для скачивания могут быть ZIP, PDF или документы формата DOCX. Встраиваемые сервисы реализуются через iframe, embed или скрипты, которые загружают внешние медиастримы.
Структура публикаций и размещение ресурсов: статические файлы, серверная генерация и маршрутизация
Статический контент обычно хранится в отдельных каталогах и обслуживается напрямую веб‑сервером. Серверная генерация подразумевает отдачу HTML на сервере при каждом запросе; динамическая маршрутизация реализуется на уровне сервера или через SPA‑роутинг в браузере. Для различения полезно сравнить тело ответа на первичный GET и последующие XHR/Fetch‑запросы.
Анализ HTTP‑ответа, статусов и цепочек редиректов
Статусный код, цепочка редиректов и метод доступа (GET/POST) как индикаторы доступности и поведения
HTTP‑ответ содержит статусный код и, при наличии, цепочку редиректов (например, 301 → 302 → 200). GET применяется для получения ресурсов, POST — для отправки данных. Статусы 2xx указывают на успешный ответ, 3xx — на перенаправление, 4xx — на клиентскую ошибку, 5xx — на ошибку сервера. Для документирования цепочки редиректов используют опцию следования redirect в инструментах (curl —location).
Ключевые заголовки ответа: Content‑Type, Cache‑Control, Content‑Security‑Policy, CORS, Set‑Cookie и их значение
Content‑Type определяет тип содержимого (например, text/html; charset=UTF-8). Cache‑Control с директивой max-age указывает время кэширования в секундах (например, max-age=86400). Content‑Security‑Policy ограничивает источники ресурсов. Заголовок Access‑Control‑Allow‑Origin регулирует CORS. Set‑Cookie включает флаги Secure, HttpOnly, SameSite и параметр Expires/Max‑Age для срока жизни.
Исследование HTML‑структуры и метаданных страницы
Doctype, кодировка и иерархия заголовков h1–h6, семантические теги и атрибуты изображений
Документ обычно начинается с doctype HTML5 и кодировки UTF‑8. Иерархия заголовков h1–h6 отражает смысловую структуру: заголовок первого уровня, разделы и подразделы. Семантические теги (header, nav, main, article, footer) помогают интерпретации контента. У изображений проверяются атрибуты alt и title, а также размеры в атрибутах width/height и фактические размеры в байтах.
Метатеги: title, meta description, canonical, Open Graph и Twitter cards — где искать и как извлечь
Метатеги находятся внутри head: title, meta name=»description», link rel=»canonical», meta property=»og:*» и meta name=»twitter:*». Их извлечение возможно через парсинг DOM в браузере или командой curl и последующим поиском по тегам в HTML. Формат lastmod в sitemap следует стандарту ISO 8601 (например, 2023‑09‑01).
Определение статического и динамического контента
Признаки серверной генерации vs подгрузки через JavaScript (XHR, Fetch, WebSocket)
Признаками серверной генерации являются готовый контент в теле начального HTML и отсутствие значительных XHR после загрузки. Подгрузка через JavaScript проявляется большим количеством XHR/Fetch, запросами к API и установкой WebSocket‑соединений. Для обнаружения используются DevTools — вкладки Network и WebSocket.
Инструменты и методы для отслеживания загрузки дополнительных запросов и API‑эндпоинтов
Для отслеживания применяются браузерные инструменты разработчика (Network), записи HAR, утилиты curl/wget с опцией —trace‑time и прокси‑снифферы (например, mitmproxy). Фиксируются методы запросов, коды ответов, заголовки и тела запросов.
Скрипты, сторонние библиотеки и трекеры
Локальные и внешние скрипты: роли, режимы загрузки (defer/async) и влияние на контент
Скрипты могут быть локальными или загружаться с CDN. Атрибуты defer и async влияют на порядок исполнения: defer выполняет скрипт после разбора DOM, async — сразу при загрузке. Скрипты формируют динамический контент, и задержки могут блокировать отображение критических элементов.
Выявление внешних SDK и трекеров, анализ доменов запросов и потенциальных рисков
Внешние SDK и трекеры видны по сетевым запросам к сторонним хостам и по подключаемым JS‑файлам. Анализ доменов запросов помогает оценить риски: частые запросы к неизвестным CDN, аналитическим или рекламным сервисам повышают вероятность кросс‑сайт отслеживания и утечек данных.
Куки, хранение данных и формы сбора информации
Идентификация cookie: имена, назначение (сессия/персистентные), время жизни, флаги Secure/HttpOnly/SameSite
Cookies идентифицируются по имени и атрибутам Set‑Cookie. Сессионные cookies без Expires уничтожаются при закрытии браузера; персистентные имеют Expires или Max‑Age в секундах. Флаг Secure ограничивает передачу по HTTPS, HttpOnly защищает от доступа через JavaScript, SameSite контролирует кросс‑сайтовые отправки.
Анализ форм: поля и типы данных, методы отправки, клиентская/серверная валидация и практики хранения данных
Формы исследуются по полям input/textarea/select, атрибутам type, методу отправки (GET/POST) и пункту action. Наличие валидации на клиенте и сервере фиксируется по сообщениям об ошибках и ответам API. Практики хранения следует оценивать по наличию явных уведомлений о сроках хранения и удалении персональных данных в политике конфиденциальности.
robots.txt и sitemap.xml: доступность для индексаторов
Содержание robots.txt: директивы Disallow/Allow, Crawl‑delay и указание Sitemap
Файл robots.txt содержит директивы User‑agent, Disallow, Allow и, иногда, Crawl‑delay. Указание Sitemap в robots.txt задаётся строкой Sitemap: и содержит путь к sitemap.xml. Директивы управляют доступом поисковых роботов к разделам ресурса.
Структура sitemap.xml: перечисление URL, теги lastmod, changefreq и priority и что они сообщают о сайте
Sitemap перечисляет URL в тегах <loc>, lastmod (дата изменения в формате YYYY‑MM‑DD), changefreq (например, daily, weekly) и priority в диапазоне 0.0–1.0. Эти теги помогают индексаторам оценить частоту обновлений и относительную важность страниц.
TLS‑сертификат, хостинг и IP‑информация
Проверка сертификата: издатель, период валидности, поддерживаемые протоколы и наличие HSTS
Сертификат содержит издателя (Issuer), субъект (Subject) и период валидности (Not Before / Not After). Поддерживаемые протоколы — обычно TLS 1.2 и TLS 1.3. HSTS задаётся заголовком Strict‑Transport‑Security с параметром max‑age, часто 31536000 (один год), и опцией includeSubDomains.
Хостинг, IP/ASN, использование CDN и серверные заголовки как факторы доступности и геолокации
IP‑адрес и ASN указывают на провайдера хостинга и геолокацию. Наличие CDN проявляется через заголовки и запросы к распределённым сетям. Серверные заголовки (Server, Via) дают информацию о серверном стекe и промежуточных прокси.
Признаки вредоносных скриптов и фишинговых элементов
Типичные индикаторы: обфускация, неожиданные iframes, рандомные внешние запросы и загрузки исполняемых файлов
Индикаторами служат сильно обфусцированные JS‑файлы, наличия скрытых iframe, множественные запросы к случайным доменам и попытки загрузки исполняемых файлов. Также подозрительны формы, запрашивающие чувствительные данные без явной необходимости.
Методы подтверждения подозрений: статический анализ скриптов, проверка доменов и поведенческий мониторинг запросов
Подтвердить подозрения можно через статический анализ кода, проверку WHOIS/ASN доменов и мониторинг сетевого поведения в песочнице. Снятие HAR и последующий анализ цепочек запросов помогает обнаружить скрытые перенаправления и утечки данных.
Установление авторства и правовой статус материалов
Поиск указаний авторства: метаданные, подписи файлов, контактные данные и лицензии
Авторство определяется через метаданные в HTML и медиафайлах, подписи внизу материалов, контактные данные и пометки о лицензии (например, Creative Commons). Файлы могут содержать EXIF/ID3 метаданные с информацией об авторе и дате создания.
Ожидаемые юридические документы на ресурсе: политика конфиденциальности и правила использования — критерии полноты и соответствия
Наличие политики конфиденциальности и правил использования должно включать указание ответственного лица, сроки хранения данных, порядок удаления и сведения о передаче третьим лицам. Полнота оценивается по наличию разделов о cookies, правах субъектов данных и механизмах отзыва согласия.
Архивирование и фиксация содержимого как доказательной базы
Технические методы сохранения: WARC, wget/curl, снимки DOM, HAR и контроль целостности
Сохранение производится в форматах WARC для архивов веб‑снимков, с помощью wget/curl для отдельных файлов, снятия DOM‑снимков и записи HAR для сетевой активности. Контроль целостности реализуется хешированием (SHA‑256) сохранённых файлов.
Фиксация метаданных запросов: временные метки, цепочки редиректов, заголовки ответа и хеши файлов
Фиксация включает временные метки UTC, полные цепочки редиректов, запись заголовков ответа и вычисление хешей (например, SHA‑256) для каждого файла. Эти данные обеспечивают воспроизводимость и служат доказательной базой при анализе.
Оценка достоверности источников и ссылочной структуры
Проверка внешних ссылок и их роль в подтверждении информации
Внешние ссылки проверяются на предмет авторитетности и соответствия тематике. Наличие релевантных источников, академических или официальных публикаций подтверждает информацию, в то время как ссылки на анонимные ресурсы снижают доверие.
Признаки манипуляций в ссылочной сети: скрытые перенаправления, несоответствия canonical и неестественные паттерны ссылок
Манипуляции проявляются в скрытых перенаправлениях, конфликтующих canonical‑тегах и повторяющихся внешних ссылках, ведущих на одну и ту же группу сайтов. Такие паттерны указывают на попытки искусственно повысить видимость или скрыть источник информации.
