Стали доступны сырые данные из Метрики

Команда Яндекс.Метрики реализовала возможность выгружать «сырые» данные из системы за любой период. Выгрузку данных обеспечивает новый программный интерфейс — Logs API.

Чем сырые данные отличаются от агрегированных

Агрегированные, или обобщенные данные, с которыми специалисты работают в интерфейсе Метрики или выгружают через API в отчетах, рассчитываются для определенной группы визитов. Например, метрика «время на сайте» вычисляется для всех переходов из какого-либо источника трафика, всех визитов от посетителей мужского пола или всех визитов с планшетов.

А основой для этих расчетов служат сырые данные — записи об отдельных визитах или просмотрах. Таблица с этими записями и передается через Logs API, при этом каждая запись дополнена полезными сведениями из Метрики. Это подробные данные по Директу и по электронной коммерции, страна и город посетителя, а еще — различная техническая информация о визите: например, браузер и модель мобильного телефона.

Зачем нужны сырые данные

С агрегированными данными удобно работать: они уже собраны в готовые показатели эффективности, и вам остается только сделать выводы. А сырые данные необходимы, чтобы получить новую статистику помимо той, что доступна в отчетах.

Специалисты Метрики приводят несколько примеров, как можно работать с сырыми данными.

  • Сложные воронки продаж 

Отслеживать историю переходов на сайт для каждого посетителя в отдельности — и выделять закономерности, важные для бизнеса. Например, исследовать, как разнесены по времени визиты, в которых посетитель совершает целевые действия, и какие каналы обычно приводят клиентов на каждом шаге воронки.

  • Собственные модели атрибуции

В Метрике есть три готовых модели атрибуции: по первому, последнему и последнему значимому переходу. Работая с сырыми данными, специалист сможет создавать любые другие модели и подробно анализировать вклад разных маркетинговых каналов в конверсии.

  • Объединение данных из разных источников

Сырые данные из Метрики можно добавлять к данным из других систем, например, чтобы собирать в одной точке всю статистику по рекламным расходам.

  • Контроль над расхождениями в статистике

Анализируя сырые логи, специалист сможете понять, как каждая система обрабатывает данные — и выбрать тот подход, который лучше отвечает его задачам.

Как работать с Logs API

Сырые данные передаются в стандартном формате tsv — такой файл можно легко импортировать в большинство систем управления базами данных. В их числе — ClickHouse, бесплатное открытое решение, на котором работает и сама Метрика. ClickHouse умеет обрабатывать сложные запросы в реальном времени, легко настраивается и не требует больших вычислительных ресурсов. А автоматически подгружать свежие данные в ClickHouse можно с помощью скрипта, подготовленного командой Метрики.

Документация по Logs API, подробное описание схемы данных и скрипт выгрузки в ClickHouse доступны на сайте технологий.