Альтернативные методы кластеризации ключевых фраз для оптимизаторов конверсий

Инструменты для оптимизации конверсий в контекстной рекламе довольно популярны у прямых рекламодателей и специалистов агентств. Основная цель таких сервисов — расчет ставок для ключевых слов, которые позволили бы достичь желаемых ключевых показателей (KPI), установленных в качестве цели оптимизации. Классическим примером такой задачи является оптимизация по CPA (Cost Per Action). В данном случае основная цель оптимизатора — получить как можно больше конверсий (целевых действий), средняя стоимость которых бы не превышала установленного целевого ограничения CPA. Также существуют другие стратегии оптимизации, например, максимизация ROI (Return of Investment), привлечение максимума конверсий при заданном бюджете рекламных кампаний и т. д.

На российском рынке работает более десятка систем, которые управляют ставками, и в целом они успешно справляются с задачами рекламодателей. Однако значительного эффекта от оптимизации добиваются в основном клиенты с крупными рекламными бюджетами. Понять эту зависимость достаточно просто. Все оптимизаторы конверсий отталкиваются от собранных за некоторый опорный период данных. Чем крупнее бюджет рекламного аккаунта, тем больше статистики, необходимой для расчета оптимальных ставок, удается собрать. Кроме того, размер бюджета на контекст напрямую влияет и на скорость сбора данных, а значит и на скорость, с которой «разгоняются» оптимизаторы. Подтверждение этому можно найти в справке Яндекс.Директа по автоматической стратегии управления ставками в кампании:

Целевые визиты за 28 дней + 0,01 × клики за 28 дней ≥ 40

— это порог оптимизации для автоматической стратегии по CPA (для 1 кампании)

Стратегия эффективна для кампаний с количеством кликов за неделю более 200 и количеством целевых визитов за неделю более 10.

— а это критерий, гарантирующий эффективность оптимизации.

Очевидно, что небольшое число рекламных кампаний подходит под такой «фильтр». Для рекламодателей с небольшими бюджетами, а также для только что созданных рекламных кампаний запуск оптимизатора невозможен. Конечно, «сторонние» оптимизаторы не так требовательны к объему трафика, но и они вынуждены работать в условиях дефицита накопленной статистики. Рассмотрим проблему недостатка данных подробнее.

Статистика по ключевым словам

Всем известен принцип Парето: «20% усилий дают 80% результата»:

По нашим наблюдениям, в контекстной рекламе он работает, но пропорция немного иная: «На 5% ключевых фраз приходится 95% трафика (статистики)»:

Поскольку оптимизаторы конверсий принимают решение об оптимальной ставке для каждой ключевой фразы отдельно, то обоснованное решение может быть принято только по примерно 5% фраз. Если рассмотреть эту картину детальней, то все ключевые фразы можно разделить на три группы по объему статистики (за некоторый период ее сбора, который иначе называется опорным):

Вопрос достаточности статистики должен быть согласован с некоторым критерием оценки объема данных. Расчет этого критерия основан на методах теории вероятностей и математической статистики, связанных с оценкой достаточности объема выборки значений некоторого распределения.

Таким образом, все ключевые фразы фразы можно разделить на три основные группы:

Фразы с достаточным объемом статистики за опорный период;
Фразы со статистикой, которой недостаточно для принятия решения;
Фразы без статистики за опорный период.

Прежде чем приступить к обсуждению различных подходов по вычислению ставок в условиях недостаточного объема данных, необходимо понять, каким образом эти данные преобразуются в оптимальную ставку. Это преобразование можно разделить на два основных блока:

Расчет прогнозируемого коэффициента (CR) конверсии ключевого слова;
Вычисление оптимальной ставки по вычисленному CR и установленных KPI.

Начнем со второго блока. Будем считать, что мы спрогнозировали коэффициент конверсии CR по фразе. Если клиент установил целевые KPI и по фразе была накоплена некоторая статистика ST по требуемым ключевым метрикам, то оптимальная ставка Bid рассчитывается как некоторая функция от рассмотренных выше параметров. Конкретный вид этой функции зависит как от используемых метрик, которые содержатся в нашей статистике, так и от стратегии оптимизации и KPI. Например, для стратегии оптимизации по СРА простейшая формула для расчета ставки выглядит так:

Для других стратегий используются более сложные формулы для расчета ставок.

Ключевым моментом в вычислении ставки является как можно более точное прогнозирование коэффициента конверсии, которое производится до момента расчета ставки. Коэффициент конверсии ключевой фразы — это вероятность того, что клик по этой фразе приведет к конверсии. При достаточном объеме кликов CL и конверсий CV, этот коэффициент может быть вычислен как:

Однако применение этой формулы «в лоб» при малом объеме статистики может привести к заведомо неточному прогнозу коэффициента конверсии.

Например, предположим, что по фразе Х за некоторый период было 2 клика и 1 конверсия. В этом случае формула даст значение CR=0.5. Пусть стратегия оптимизации — «максимум конверсий при CPA=2000 руб.», тогда Bid=2000*0.5=1000 руб. Остается надеяться, что фраза X не из РСЯ-кампании...

Противоположный случай. Пусть по фразе Y было 2 клика и 0 конверсий. В этом случае формула даст значение CR=0. Пусть стратегия оптимизации — «максимум конверсий при CPA=2000 руб.», тогда Bid=2000*0=0 руб. В этом случае система установит минимально возможную для валюты аккаунта ставку. Показы по фразе практически прекратятся, и она уже никогда в будущем не принесет конверсии.

Если же по фразе было 0 кликов и 0 конверсий, то вычисление CR «напрямую» в принципе невозможно.

Таким образом, «простая» формула вычисления CR может быть использована только для ключевых фраз с достаточным объемом статистики (как мы помним, таких фраз около 5%), и мы не можем принять «взвешенного» решения по оставшимся 95% фраз.

Чтобы выйти из данного положения, можно использовать различные методики, например:

Назначение единых ставок на уровне рекламной кампании;
Анализ метрик, коррелирующих с CR (например, показатель отказов);
Повышение ставок до тех пор, пока фразы не начнут набирать статистику;
Расширение опорного периода;
Применение «пулинга».

Последний метод наиболее эффективен и используется в системах оптимизации контекстной рекламы, поэтому остановимся на нем подробно.

Что не так с классическим методом пулинга

Пулинг (нагл. Pooling) по сути представляет собой «разумное» наращивание статистики по ключевой фразе за счет заимствования статистики по другим фразам. Чтобы понять принцип классического пулинга, посмотрим на структуру рекламного аккаунта (например, Яндекс.Директа):

У него древовидная структуру, «корнем» является сам аккаунт, а «листьями» — ключевые фразы. Ключевые фразы связаны с объявлениями, показ которых они инициируют. Объявления собираются в группы объявлений, которые объединяются в рекламную кампанию. Если нам необходимо спрогнозировать CR по ключевой фразе, собственной статистики по которой недостаточно, то мы объединяем статистику по, группе объявлений, которой эта фраза принадлежит, кампании и так далее до тех пор, пока набранной таким образом статистики не окажется достаточно для принятия решения о значении прогнозируемого CR. Графически это эквивалентно «движению вниз» по дереву от «листьев» до «корня»:

Простейшая формула пулинга имеет вид:

где CRpool — прогнозируемый CR ключевой фразы, CV — количество конверсий по ключевой фразе, CL — количество кликов по ключевой фразе, CRup — значение коэффициента конверсии для следующего уровня пулинга (например, коэффициент конверсии кампании).

Таким образом, модель прогнозирует, сколько фразе потребуется дополнительных кликов, чтобы получить еще одну конверсию, предполагая, что в среднем все фразы имеют CR близкий к CRup. В свою очередь CRup может быть рассчитан напрямую, при условии, что на данном уровне достаточно статистических данных, в противном случае он может быть вычислен с использованием пулинга более высокого уровня. В этом случае получается сложная вложенная модель.

Рассмотрим на примере. Пусть по фразе X было 5 кликов и 1 конверсия, а по группе объявлений, в которой находится X, набралось 100 кликов и 5 конверсий. Если предположить, что 100 кликов достаточно для принятия решения об оптимальной ставке, получим:

Метод пулинга и различные его обобщения используются в системах автоматизации контекстной рекламы. Например, самая популярная в мире платформа по управлению рекламой в интернете Marin Software запатентовала свою модель (патент US PTO 60948670):

где — среднее значение вероятности конверсии для следующего уровня пулинга, — дисперсия (мера разброса) значений вероятности конверсии следующего уровня пулинга.

Очевидно, что чем больше величина дисперсии, тем меньше k, а значит тем меньше влияния оказывает следующий уровень пулинга в прогнозировании коэффициента конверсии. Величина показывает, насколько близки друг к другу коэффициенты конверсии. При классической модели пулинга будет напрямую зависеть от того, насколько качественно проработан рекламный аккаунт, а значит качество прогнозирования напрямую зависит от человеческого фактора.

Кроме того, иерархический пулинг учитывает только статистику по фразам, оставляя в стороне ее структуру.

Поэтому мы в Calltouch разработали другой подход к прогнозированию коэффициента конверсии.

Основные идеи нашего подхода

Основная идея нашего подхода — отказ от иерархической структуры при пулинге. Вместо этого мы анализируем текстовое сходство ключевых фраз, тем самым собирая «ядро» фразы — набор ключевиков, которые наиболее близки по текстовому содержанию к той фразе, которую мы анализируем. Данный процесс является итеративным: когда мы добавляем новую фразу в набор (кластер), мы анализируем его состав и оцениваем, достаточно ли статистики для принятия решения о ставке. Как только в кластере собрался необходимый объем данных, процесс останавливается.

Графически это можно представить в следующем виде:

Теперь рассмотрим структуру кластеров детальнее:

На левом рисунке выбраны ключевые фразы с малой дисперсией коэффициента конверсии, в то время как на правом — с большой. В случае большой дисперсии алгоритм сходится медленнее (требуется добавлять больше фраз для анализа), а сам прогноз является менее точным из-за его сильной рассеянности от центра (красный круг). Поэтому требуется заранее выбрать метрику схожести фраз, которая бы минимизировала дисперсию.

Другие способы пулинга — метрики схожести

Существует множество различных метрик, позволяющих вычислить сходство двух текстов (ключевых фраз в нашем случае). Каждая из этих метрик обладает как своими достоинствами, так и недостатками, которые сужают область их применения. Вот наиболее известные метрики:

Расстояние Левенштейна;
N-граммное расстояние;
Косинусное расстояние.

Расстояние Левенштейна определяется как минимальное количество операций вставки, удаления одного символа или замены одного символа другим, необходимых для превращения одной строки в другую.

Преимущества расстояния Левенштейна заключаются в его слабой зависимости от форм слова в тексте и простоте реализации, а к основному недостатку следует отнести зависимость от порядка слов.

Основная идея, лежащая в основе вычисления N-граммного расстояния — это разбиение строк на подстроки длины N и подсчет количества совпадающих подстрок.

Преимущество этого подхода — он слабо зависит от форм слов в тексте. Главный же недостаток — зависимость от свободного параметра N, выбор которого может оказать сильное влияние на дисперсию внутри кластера.

Идея, на которой базируется расчет косинусного расстояния, заключается в том, что строку из символов можно преобразовать в числовой вектор. Если проделать эту процедуру с двумя сравниваемыми строками, то меру их сходства можно оценить через косинус между двумя числовыми векторами. Из курса школьной математики известно, что если угол между векторами равен 0 (то есть векторы полностью совпадают), то косинус равен 1. И наоборот: если угол между векторами равен 90 градусов (векторы ортогональны — то есть полностью не совпадают), то косинус между ними равен 0.

Эта метрика хорошо работает на разреженных данных (реальные тексты ключевых фраз могут быть очень длинными, содержать значительные объемы служебной информации, такой как минус-слова, стоп-слова и т. д.) Ключевым недостатком косинусного расстояния является его очень сильная зависимость от форм слова. Чтобы данная метрика могла использоваться на практике, требуется предварительная предобработка текстов ключевых фраз (например, лемматизация).

Поскольку у всех трех метрик есть достоинства и существенные недостатки, плодотворным оказывается конструирование новой метрики на базе уже существующих. Это можно сделать, например, выбрав в качестве новой метрики линейную комбинацию некоторого набора методов. Весовые коэффициенты в этой комбинации подбираются методами оптимизации, которые используются для минимизации ошибки измерений. Такой подход был использован в оптимизаторе конверсий Calltouch.

Результаты

Мы провели тестирование метрик на статистике, собранной в рекламных аккаунтах наших клиентов. Рассматривались различные тематики: недвижимость, автомобили, медицина и т. д. В таблице приведены усредненные показатели дисперсии, вычисленной при кластеризации ключевых фраз с использованием различных метрик.

Из таблицы видно, что классический метод пулинга показывает наибольшую дисперсию (а значит его использование приводит к менее точному прогнозу CR), а использование любой из приведенных метрик схожести фраз между собой существенно понижает этот показатель. Наилучшей метрикой для кластеризации оказалось косинусное расстояние.

Заключение

Таким образом, кластеризация на основе текстового сходства уменьшает внутрикластерную дисперсию коэффициента конверсии, а это повышает точность прогнозирования конверсии по ключевой фразе и обеспечивает более корректный расчет ставок. Он может использоваться для оптимизации даже тех фраз, собственной статистики по которым недостаточно для принятия решения об оптимальной ставке.