Команда Яндекс.Метрики реализовала возможность выгружать «сырые» данные из системы за любой период. Выгрузку данных обеспечивает новый программный интерфейс — Logs API.
Чем сырые данные отличаются от агрегированных
Агрегированные, или обобщенные данные, с которыми специалисты работают в интерфейсе Метрики или выгружают через API в отчетах, рассчитываются для определенной группы визитов. Например, метрика «время на сайте» вычисляется для всех переходов из какого-либо источника трафика, всех визитов от посетителей мужского пола или всех визитов с планшетов.
А основой для этих расчетов служат сырые данные — записи об отдельных визитах или просмотрах. Таблица с этими записями и передается через Logs API, при этом каждая запись дополнена полезными сведениями из Метрики. Это подробные данные по Директу и по электронной коммерции, страна и город посетителя, а еще — различная техническая информация о визите: например, браузер и модель мобильного телефона.
Зачем нужны сырые данные
С агрегированными данными удобно работать: они уже собраны в готовые показатели эффективности, и вам остается только сделать выводы. А сырые данные необходимы, чтобы получить новую статистику помимо той, что доступна в отчетах.
Специалисты Метрики приводят несколько примеров, как можно работать с сырыми данными.
- Сложные воронки продаж
Отслеживать историю переходов на сайт для каждого посетителя в отдельности — и выделять закономерности, важные для бизнеса. Например, исследовать, как разнесены по времени визиты, в которых посетитель совершает целевые действия, и какие каналы обычно приводят клиентов на каждом шаге воронки.
- Собственные модели атрибуции
В Метрике есть три готовых модели атрибуции: по первому, последнему и последнему значимому переходу. Работая с сырыми данными, специалист сможет создавать любые другие модели и подробно анализировать вклад разных маркетинговых каналов в конверсии.
- Объединение данных из разных источников
Сырые данные из Метрики можно добавлять к данным из других систем, например, чтобы собирать в одной точке всю статистику по рекламным расходам.
- Контроль над расхождениями в статистике
Анализируя сырые логи, специалист сможете понять, как каждая система обрабатывает данные — и выбрать тот подход, который лучше отвечает его задачам.
Как работать с Logs API
Сырые данные передаются в стандартном формате tsv — такой файл можно легко импортировать в большинство систем управления базами данных. В их числе — ClickHouse, бесплатное открытое решение, на котором работает и сама Метрика. ClickHouse умеет обрабатывать сложные запросы в реальном времени, легко настраивается и не требует больших вычислительных ресурсов. А автоматически подгружать свежие данные в ClickHouse можно с помощью скрипта, подготовленного командой Метрики.
Документация по Logs API, подробное описание схемы данных и скрипт выгрузки в ClickHouse доступны на сайте технологий.