A/Б-тестирование: как подготовиться, провести и проанализировать результаты — кейс Lazurit Мебель

Метод А/Б-тестирования стал неотъемлемой частью стратегий рекламных кампаний. Он позволяет принимать обоснованные решения на основе данных, причем для performance-кампаний — на всех этапах воронки продаж.

О том, как грамотно проводить A/Б-тесты и анализировать данные, мы расскажем на примере своего эксперимента, в котором тестировали внешние креативы.

Ситуация. Исследуя рынок интернет-рекламы, мы заметили, что большинство конкурентов в ecom-сегменте использует в креативах изображение товара на белом фоне. У нас же мебель демонстрировалась на фоне интерьера.

Идея. Протестировать новый подход.

Прогноз. Исходя из нашего опыта, креативы с белым фоном смогут повысить CTR на 40%.

Скриншоты объявлений конкурентов и объявлений компании Lazurit мебель / Источник: изображение Lazurit мебель

Этап 1. Определяем длительность теста и бюджет

Но делаем это не сразу. Чтобы получить корректные данные о необходимой длительности теста и бюджете, нужно провести предварительные расчеты.

Определяем размер выборки с калькулятором Эвана Миллера

Размер выборки — это количество элементов, за которыми ведется наблюдение в исследовании. В нашем случае это необходимое число кликов, которое должна будет получить каждая из тестируемых кампаний.

Почему важно определить правильный размер выборки. Потому что недостаточный объем выборки может привести к высокой вариативности результатов. Например, эксперимент может не учесть сезонность, циклы поведения пользователей или другие факторы. В результате данные, которые мы получим, будут менее надежными и трудно воспроизводимыми. Мы попросту не сможем на основе них делать обобщения на всю аудиторию.

Максимально точно определить размер выборки помогает калькулятор Эвана Миллера — это онлайн-инструмент для расчета различных статистических параметров. Среди них — доверительные интервалы, статистическая мощность и размер выборки, который нужен нам.

Чтобы рассчитать размер выборки, в онлайн-калькулятор нужно внести следующие данные:

Показатели CTR контрольной группы (Baseline conversion rate). Контрольная группа — это те пользователи, которые взаимодействуют с базовой версией объекта. Например, это аудитория сайта, которая пользовалась им до начала тестирования. На основе их конверсии и поведения будет проводиться сравнение с результатами эксперимента на тестируемой группе.
Ожидаемый минимальный эффект (Minimum Detectable Effect). Его можно высчитать, если есть доступные данные по аналогичным исследованиям или, например, пилотное исследование. У нас были данные по схожим исследованиям, поэтому на основе них мы предположили такой ожидаемый минимальный эффект: рост CTR на 40%. Эта цифра является гипотетической, а не точным математическим расчетом.
Статистическую достоверность (Statistical power 1−β). Показатель в процентах оценивает общую надежность результатов. Максимально возможная достоверность — 95%.

При выборе процента отталкивайтесь от задач, которые вы преследуете, а также ваших ресурсов: чем выше статистическая достоверность, тем больше будет выборка и, соответственно, дольше будет тест и больше будет бюджет. Если вы готовы принимать решения на уровне статистической достоверности в 80% (стандартное значение) в калькуляторе, и считаете, что этого достаточно, то велком.
Уровень статистической значимости (Significance level α). Показатель в процентах указывает на вероятность случайной ошибки. Чем ниже это значение, тем меньше вероятность того, что результаты эксперимента будут случайны.
Значение, в котором рассчитывается выборка: абсолютные или относительные (Absolute / Relative). Какое выбрать, зависит от типа вашего исследования.

Если ваша переменная измеряется в процентах или долях (например, доля конверсий, уровень удовлетворенности), то расчет размера выборки часто проводится в относительных значениях. Мы измеряли уровень конверсии, поэтому выбирали относительные значения.

Абсолютные значения стоит использовать, если вы можете точно определить, какое абсолютное изменение имеет практическое значение. Например, увеличение дохода на 1000 рублей после внедрения новой маркетинговой стратегии.

Мы внесли следующие показатели:

CTR контрольной группы — 0,50%;
ожидаемый минимальный эффект — 40%;
статистическая достоверность — 95%;
уровень статистической значимости — 1%;
значение расчета — Relative.

После ввода всех значений мы получили размер выборки. Калькулятор рассчитал, что 47,648 — необходимое число кликов на каждую из тестируемых кампаний.

Как использовать калькулятор Эвана Миллера — Источник: скриншот страницы https://www.evanmiller.org/ab-testing/sample-size.html

Теперь мы можем перейти к расчету длительности теста и бюджета.

Определение длительности теста и бюджета

Определение длительности теста — это один из самых важных вопросов при проведении эксперимента. Ответ зависит от:

размера аудитории;
уровня изменчивости метрик;
желаемой статистической значимости;
ресурсов компании.

Обычно для получения статистически верных данных рекомендуется проводить тестирование не менее 7 дней. Такой срок поможет сгладить сезонность, учесть дневные и недельные циклы активности аудитории.

А для того, чтобы определить срок эксперимента более точно, нужно понимание размера выборки для предстоящего эксперимента. Понадобятся также данные о том, сколько кликов ваша контрольная кампания собирала ранее за определенный период (например, за день или неделю). Расчет простой:

Делим размер выборки (показатель, полученный в калькуляторе Миллера) на количество кликов в день. Новый показатель — это количество дней, необходимых для теста.
Умножаем размер выборки (показатель, полученный в калькуляторе Миллера), на историческую стоимость клика. Получаем примерный бюджет на кампанию.

Мы провели подсчеты и вычислили оптимальный для себя срок проведения эксперимента — 30 дней.

Также мы оценили, сколько денег потребуется на планируемый период теста. Учитывайте, что бюджета должно хватать на то, чтобы собрать необходимое количество трафика. Очевидно цифра будет примерной, но достаточно точной, чтобы сделать выводы с минимальной погрешностью.

Этап 2. Составляем план эксперимента

То есть определяемся, какие инструменты, метрики, материалы и прочее мы будем использовать при тестировании. Здесь важны 5 шагов.

Шаг 1 — для тех, кто еще не проводил эксперименты

Если вы впервые проводите тестирование, учитывайте, что вам нужно будет предварительно подготовиться: установить счетчики и настроить цели на сайте.

Также вам нужно будет настроить необходимые инструменты. Пригодится, конечно, Яндекс Метрика. Если вы тестируете в Директе, рекомендуем использовать Яндекс Аудитории (вкладка «Эксперименты») — инструмент позволяет разделить аудитории между тестируемыми кампаниями в равных долях случайным образом.

Шаг 2. Определяем метрики

Необходимо выделить показатели, на которые будем ориентироваться при анализе результатов тестирования. Они зависят от того, что вы тестируете и какие цели определяете как ключевые перед началом теста.

Мы тестировали креативы, поэтому для нас закономерно важна была метрика CTR — кликабельность объявления. Она вообще универсальна. Также стоит смотреть за количеством показов кампаний, чтобы они равномерно были распределены между тестируемыми кампаниями.

Помните, что лучше не опираться только на CTR. Мы анализировали также поведенческие метрики:

вовлеченность;
отказы.

Мы выбрали их, потому что они косвенно или напрямую могут указывать на эффективность эксперимента. Например, у кампании с более высоким CTR может быть низкая вовлеченность. Почему? Например, потому что тестируемый вариант оказался кликбейтом (клиентов привлекал только креатив). В результате, несмотря на клики по объявлению и переходы на сайт, посадочная оказывалась нерелевантной, неинтересной пользователю. То же самое можно сказать про показатель отказов.

Также мы опирались на конверсионные метрики. В ecom это:

брошенные корзины;
покупки.

Их мы выбрали, потому что бывают ситуации, когда у кампании невысокий CTR, но конверсия в корзину и даже в покупку выше. Получается, что она собирает меньше трафика, она хуже по CTR, но по макроконверсиям она эффективнее.

Шаг 3. Определяем гео тестирования

Регион следует выбирать исходя из выборки, которую вы получили в калькуляторе Эвана Миллера. Вы должны оценить, можно ли в выбранном регионе достичь получившегося показателя:

хватает ли трафика в регионе, чтобы провести тест в относительно быстрые сроки;
насколько качественный трафик в регионе — если здесь в принципе нет продаж, то вряд ли смена креативов поможет изменить ситуацию + на фоне отсутствия продаж будет невозможно оценить результат эксперимента.

Так как у нас изначально были настроены кампании на всю страну, мы сужали гео таргетинга. Чтобы избежать ухудшения качества трафика по всей России в случае неудачи, мы настроили тестовую рекламную кампанию на Москву и Московскую область.

Шаг 4. Проводим проверку перед запуском

В A/Б-экспериментах тестировать можно не более одного элемента за раз. Поэтому на всякий случай перед началом теста нужно перепроверить настройки:

кампаний;
групп;
объявлений.

В обеих кампаниях всё, кроме тестируемого элемента (в нашем случае — фона креатива), должно быть идентично.

Шаг 5. Запуск

Если всё готово, запускайте рекламную кампанию и ждите необходимое количество кликов. В процессе тестирования придерживайтесь основных правил:

не пытайтесь анализировать цифры в первые дни после запуска теста — в это время результаты могут быть спорными;
ни в коем случае ничего не меняйте в процессе теста.

Этап 3. Оценка результатов

После того, как данные выгружены, важно грамотно оценить результаты. Вот основные правила:

Проверьте, что тест прошел максимально идентично для обеих тестируемых групп (об этом мы говорили выше).
Изучите ключевые метрики, которые определили перед началом эксперимента:
1. нужно сравнить показатели, которые получили контрольная и тестируемая группа;
2. можно сравнить метрики тестируемого варианта со средним значением по всем кампаниям/аккаунту.
Учтите погрешность данных. Есть вероятность, что результаты теста могут быть случайны (уровень этой вероятности мы указываем в калькуляторе Эвана Миллера). Защитить от этого помогает объем выборки — чем она больше, тем меньше вероятность случайных результатов.
По итогам теста принимайте решения с учетом специфики вашего бизнеса и задач. Например, если была задача привлечь трафик на сайт, то повышение кликабельности объявления (CTR) пойдет на пользу. Но если основной задачей было увеличение покупок, а при увеличении CTR покупок не прибавилось, то тест неудачный — произошел рост пустого трафика. Поэтому важно держать в голове, для какой задачи проводится тест и какие метрики важны.

Это основные правила. В анализ полученных данных можно углубляться до условной бесконечности. Например, использовать следующие методы:

бутстрэппинг — метод оценки распределения выборки путем многократного повторного взятия случайных выборок из исходных данных;
мета-анализ — метод исследования, который объединяет результаты нескольких независимых исследований по одной теме, чтобы получить общие выводы и повысить статистическую точность;
t-тест — статистический метод, используемый для сравнения средних значений двух групп и определения, есть ли между ними значимые различия.

Какие результаты получили мы. За месяц каждая из тестируемых кампаний получила необходимое количество кликов. Приводим график. Фиолетовым на нем обозначены креативы с интерьерным фоном, красным — с белым фоном.

Результаты А/Б-тестирования — Источник: скриншот рекламного кабинета компании Lazurit мебель

На графике видно, что в середине и конце теста был значительный перекос в пользу креативов с интерьерным фоном. То есть наша гипотеза не подтвердилась. Разберем подробнее:

значение CTR интерьерного фида получилось на 31% больше, чем фида на белом фоне;
по поведенческим метрикам: при использовании креативов с интерьерным фоном количество корзин увеличилось на 22%, покупок — на 10%, звонков — на 57%.

Вот общие данные.

Результаты А Б теста — Источник: таблица, составленная компанией Lazurit мебель

Что нам дал А/Б-тест. Казалось бы, результат отрицательный — гипотеза не сработала. На самом деле, плохих результатов в аналитике не бывает. Мы провели эксперимент с новым типом креативов и поняли, что наш подход — использование интерьерных фонов — отрабатывает эффективнее, чем подход конкурентов. То есть мы выясняли, что нам нужно продолжать использовать интерьерные фиды.

Подытожим

A/Б-тестирование — мощный инструмент в performance-рекламе. Он позволяет оптимизировать кампании и улучшать результаты. Напоследок повторим два правила, без которых A/Б-тест может провалиться: