- Метрика 1
Вариокуб Яндекса для А/Б-тестов: как грамотно сформулировать гипотезу, выбрать цель и оценить результаты
Эксперты из агентств eLama и Kinetica отвечают на важные вопросы о работе с новым инструментом Яндекса для проведения А/Б-тестирования и делятся первыми впечатлениями от использования Вариокуба.
Яндекс представил Вариокуб в конце ноября 2022 года. Это специальный инструмент для А/Б-тестирования, который интегрирован в Метрику, а вскоре он станет доступен и в AppMetrica. Главная задача этого инструмента — помочь провести эксперименты на сайте. Причем тесты можно запускать на сайтах любой сложности — от одностраничных лендингов до многостраничных со сложной структурой, как у интернет-магазинов.
Вариокуб работает пока в тестовом режиме, и данных о том, как работать с этим инструментом и насколько он полезен, мало. Поэтому мы поговорили с практикующими специалистами и попросили их прояснить несколько важных моментов:
-
Как грамотно сформулировать гипотезу для А/Б-теста в Вариокубе — 7 советов
-
Как выбрать целевую метрику для эксперимента и от чего она будет зависеть
-
Сколько времени должен длиться эксперимент, чтобы он был статистически значимым
Как грамотно сформулировать гипотезу для А/Б-теста в Вариокубе — 7 советов
С помощью Вариокуба можно протестировать любые гипотезы, которые касаются изменений на сайте: от того, как лучше оформить отдельный блок, до того, какое из двух коммерческих предложений сработает лучше. Эксперимент проходит в классическом виде: вы делите целевую аудиторию на две части и настраиваете два варианта сайта, первый вариант показываете первой части целевых пользователей, второй вариант — второй части, а потом смотрите, на какой из вариантов аудитория реагировала лучше.
От того, насколько корректно выбрана и сформулирована гипотеза, зависит половина успеха тестирования. Здесь главное — не пытаться протестировать всё и сразу, а действовать последовательно: проверили одну гипотезу и только потом начали проверять следующую.
Наши коллеги из агентств eLama и Kinetica дали семь практических советов о том, как надо и не надо подходить к проверке гипотез.
Вот общие важные правила, как нужно тестировать гипотезу:
Начните с правильных установок в голове: нам нужно проверить, а не подтвердить гипотезу. Вера в то, что вы придумали что-то полезное и востребованное, легко трансформируется в искажение восприятия информации. Проще говоря — не женитесь на своих гипотезах, иначе вы будете их отстаивать до последнего, даже когда данных недостаточно. Важно относиться к каждой гипотезе как к непроверенному факту, который еще и будет меняться со временем. В мире относительно всё, даже в точных науках, а в социальных, таких как маркетинг, где переменных необозримое множество, тем более.
Это не значит, что ничего не надо тестировать и исследовать — это значит, что тестировать, исследовать и масштабировать надо регулярно.
Убедитесь, что ваша гипотеза небинарна — содержит только одно предположение. Если ваша гипотеза включает в себя более одного утверждения, то ее надо переформулировать, иначе вы не сможете оценить реальную эффективность изменений.
Например, вы хотите одновременно изменить цвет кнопки и протестировать ценностное предложение. Это плохая идея, потому что вы не поймете, какое из этих изменений повлияло на результат.
Проверьте, ваша гипотеза фальсифицируемая или нет — можно ли ее опровергнуть? Если да, то тестируйте, если нет, то не надо.
Поставьте цель исследования, чтобы не тестировать ради тестирования. Текущая ситуация неопределенности — это точка А. Состояние после проведения исследования — точка Б. Цель может выглядеть примерно так: «Если изменить ценностное предложение в стартовом блоке, то CR увеличится на 5%».
Гипотеза для сплит-теста должна быть четкой, конкретной и проверяемой. Вы должны понимать три вещи:
Насколько корректно работает цель — нет ли дублирования и ложных срабатываний. Например, отправки формы при некорректном заполнении полей.
Какова реальная ценность цели, что вам даст ее достижение, сколько денег принесет. В этом смысле чекаут — понятная цель, а вот тестирование «добавления в корзину» — уже не такая очевидная по стоимости.
Почему это важно: затраты на сплит должны отбиваться его результатом в среднесрочной перспективе. Например, вы понимаете, что увеличение конверсии добавления в корзину на 1% принесет вам 5000 рублей — это конечный результат достижения цели. Уже исходя из него нужно смотреть, сколько ресурсов вы готовы потратить на оптимизацию, насколько это рентабельно для вас.
Где у вас в воронке узкое место — на каком этапе из нее выпадает наибольшее количество целевой аудитории. Там и нужно вносить правки.
Важно также учитывать контекст и цель теста. Например, если ваша цель — увеличить конверсию, то и гипотеза должна быть связана с факторами, которые влияют на конверсию.
Также рекомендую отранжировать свои гипотезы заранее исходя из:
потенциала правки (субъективно оцениваем в команде и выставляем оценку от 1 до 10);
затрат на реализацию (оцениваем по тому, сколько человекочасов потребуется).
Как выбрать целевую метрику для эксперимента и от чего она будет зависеть
Целевой считается метрика, которая показывает, насколько эффективно мы приближаемся к цели. Яндекс считает целевыми следующие метрики:
-
достижение цели — момент, когда пользователь выполнил условие, заданное в параметрах цели;
-
целевой посетитель — тот, кто совершил целевое действие;
-
целевой визит — визит, в процессе которого пользователь совершил целевое действие;
-
конверсия — отношение количества целевых к общему числу визитов.
В рамках эксперимента целевая метрика — это своеобразный KPI, который помогает понять, мы вообще как, в нужную сторону движемся или нет: провальным оказалось наше предположение или наоборот. Соответственно, целевая метрика будет напрямую зависеть от двух факторов, выбранных ранее: цели теста и гипотезы.
Например, если вы хотите увеличить количество продаж, то целевой метрикой можно выбрать конверсию. Если хотите увеличить время на сайте, то целевой метрикой может быть среднее время на странице.
Важный момент
Целевая метрика должна быть достоверной и измеряемой, но самое главное — она должна меняться только из-за тестирования гипотезы. Другие факторы не должны на нее влиять. Именно поэтому мы и призываем тестировать только одну гипотезу за раз, чтобы не смазать картину.
Главное — помнить основной принцип: «Одна цель — один элемент — одна метрика». И чем ближе ваша метрика к цели эксперимента, тем лучше. Допустим, цель вашего эксперимента звучит примерно так: «Если изменить ценностное предложение на стартовом блоке, то CR увеличится на 5%». Тогда в качестве целевой метрики выбирайте CR в заявку или Registration Rate.
Также стоит учитывать, что количество пользователей в тестируемых группах не делится ровно пополам. Поэтому для тестирования удобнее выбирать метрики без привязки к абсолютному значению — лучше брать те, что привязаны к относительному.
Сколько времени должен длиться эксперимент, чтобы он был статистически значимым
В среднем — от одного до трех месяцев, но, конечно, всё зависит от ситуации. Чтобы понять, через какое время можно оценивать результаты, посмотрите, сколько данных вы набрали:
-
сколько людей видело оба варианта сайта;
-
сколько целевых действий вы получили.
Понять, достаточно ли данных, можно посмотрев на статистику сайта до старта теста. Заканчивать эксперимент до того, как вы наберете такой же объем трафика, не стоит — такая выборка не будет статистически значимой.
Тест хорошо идет в том случае, если в исследуемой когорте много трафика. Поэтому на большом объеме советую ждать достоверности в 75–80% — это уже нормально. А на малом объеме трафика ждем у моря погоды примерно месяц—два.
Как и когда нужно оценивать результаты теста в Вариокубе
Для начала нужно собрать достаточно данных: визитов, совершенных целевых действий, конверсий. Затем мы смотрим на целевую метрику и анализируем, о чем говорят полученные результаты. Возможно, уменьшение количества полей в лид-форме увеличило конверсию на 5%, а не на 30%, как вы планировали, или вообще снизило ее. Это значит, что нужно откатить правки назад — гипотеза не подтвердилась.
В идеале для оценки результатов текста должна быть единая иерархия метрик, которую надо:
разложить на составные бизнес-метрики и компоненты;
связать компоненты бизнес-метрик с продуктовыми или с юнит-экономикой;
выстроить несколько уровней продуктовых метрик в зависимости от их чувствительности, и посмотреть что с ними происходит, если мы меняем относительные показатели на успешные результаты из полученных тестов.
Но, конечно, так делают только команды, у которых есть продуктовая аналитика или сильная маркетинговая аналитика. И для большинства простеньких гипотез — это оверинжиниринг. Например, мы просто останавливаемся, когда видим, что успешный эксперимент в относительных значениях очевиден, но чаще это обратная история, когда показатели Б намного ниже. При этом мы помним, что наша цель — собрать достаточно данных, а не конечных результатов. Поэтому важно смотреть за доверительным интервалом и P-Value. Благо, эти данные отражаются в экспериментах, проводимых с помощью Вариокуба.
Артем Первухин из Kinetica подготовил для вас небольшой чек-лист по корректной оценке результатов А/Б-тестирования.
Шаг 1. Определите заранее, какие метрики будут использоваться для оценки результатов сплит-теста. Например, это могут быть конверсия, время нахождения на странице, средний чек и т. д.
Шаг 2. Соберите достаточно данных для принятия решения. Обычно это занимает не менее недели, а иногда месяц, максимум — два.
Шаг 3. Оцените результаты сплит-теста. В ходе анализа обращайте внимание на статистическую значимость различий между группами. 75–80% вполне приемлемо для нас.
Старайтесь тестировать только один элемент в каждом сплит-тесте. Это позволит точнее понимать, что именно повлияло на результат. Ну, и не забывайте закладывать ресурс на внедрение хороших версий.
Ждем первых результатов тестирования Вариокуба
Вариокуб будет полезен любому бизнесу, у которого есть сайт. Его главные достоинства — простота использования и доступность: не нужно быть гуру разработки, чтобы настроить сплит-тест.
Наши коллеги сейчас в процессе тестирования инструмента, и мы советуем последовать их примеру.
Мы прямо сейчас тестируем Вариокуб. У нас есть лендинг, на который мы получаем трафик из Google Ads, VK Рекламы, а также из рефералок у партнеров. Мы начали тестировать инструмент две недели назад, и пока у нас недостаточно данных, чтобы ими поделиться.
У Вариокуба удобный визуальный редактор: его легко установить, легко настроить эксперимент. Мы пока использовали инструмент только для решения простых задач — за сложную продуктовую аналитику, сценарий для A/Б-теста говорить не могу, но интуитивно кажется, что для этого Вариокубу надо расширить функциональность. Но инструмент сейчас на стадии роста, поэтому думаю, что он и там догонит.
Я рекомендую протестировать Вариокуб продакт-менеджерам, маркетологам всех мастей, веб-аналитикам и продуктовым аналитикам. Вариокуб делает исследование более или менее демократичным. Чтобы запустить A/Б-тест, достаточно иметь экспертизу на уровне книги «Статистика и котики», плюс не надо дергать разработку или самому быть веб-разработчиком. В целом, было бы хорошо, если бы инструмент получил популярность и компании разного уровня его юзали на уровне регулярной практики. Главное — помнить правило: «Одна цель — один элемент — одна метрика», и всё это в рамках тестирования одной гипотезы.
Если вы уже тестировали Вариокуб, делитесь своими впечатлениями в комментариях — возможно, вы поможете друг другу принять решение о запуске новых экспериментов.
Последние комментарии