Стоп-слова в контексте: друзья или враги
В октябре в Москве пройдет ключевое событие по контексту — конференция SEMconf. Если вы еще раздумываете над участием, читайте доклад эксперта по контекстной рекламе Дмитрия Тумайкина. Его выступление участники признали одним из лучших в прошлом году. В конце материала — видеозапись доклада.
Многие, уверен, знают, что такое стоп-слова и чем они отличаются от минус-слов.
«Стоп-слова — служебные части речи и местоимения, а также любые слова, не несущие дополнительного смысла, которые автоматически исключаются из запроса пользователя при отборе объявлений для показа». Справка Директа
Главное отличие стоп-слов заключается в том, что они детерминированы, а минус-словом может быть любое слово. Основное в определении стоп-слов — то, что это слова, не несущие смысла. Однако это понятие относительное. Есть «неоднозначные» стоп-слова, например, «то» (техобслуживание), «тех» (тех характеристики = технические характеристики), «тем» (много интересных тем). И зачастую стоп-слова кардинально меняют смысл фраз. Именно это и есть главная мысль этого материала.
Точный список стоп-слов Директа неизвестен и постоянно меняется. По моим наблюдениям, недавно из него удалили все украинские стоп-слова.
Как определить стоп-слова?
Я знаю четыре способа:
- Через заведение группы в интерфейсе: слова без стоп-слова и со стоп-словом «схлопываются», остается только слово без стоп-слова.
- Через кросс-минусовку и удаление дублей в Коммандере.
- Через Прогноз бюджета в интерфейсе: если при запросе частотности система ругается «Ключевая фраза не может состоять только из стоп-слов: союзов, предлогов, частиц». Причем, в отличие от Вордстата, не дает это сделать даже с применением операторов.
- Через Wordstat Яндекса: если отдает 0 показов по слову:
Удивительное в том, что эти варианты отдают разные данные, есть небольшой рассинхрон. Я взял за истину Прогноз бюджета в интерфейсе, так как считаю, что это самый приоритетный продукт. На текущий момент мной найдены 295 имеющих смысл слов:
a about all an and any are as at be but by can do for from have i if in is it my no not of on one or so that the there they this to was we what which will with would you а будем будет будете будешь буду будут будь будьте бы был была были было быть в вам вами вас весь во вот все всё всего всей всем всём всеми всему всех всею всю вся вы да для до его ёго ее её ёё ей ёй ему ёму если ест есть еще ещё ею же за и из или им ими их к как кем ко когда кого ком кому которая которого которое которой котором которому которою которую которые который которым которыми которых кто меня мне мной мог моги могите могла могли могло могу могут мое моё моего моей моем моём моему моею можем может можете можешь мои моим моими моих мой мочь мою моя мы на нам нами нас наш наша наше нашего нашей нашем нашему нашею наши нашим нашими наших нашою нашу не нё него нее неё ней нем нём нему нет нею ним ними них но о об один одна одни одним одними одних одно одного одной одном одному одну он она они оно от по при с сам сама самим самими самих само саму свое своё своего своей своем своём своему своею свои своим своими своих свой свою своя себе себя собой собою та так такая такие таким такими таких такого такое такой таком такому такою такую те тё тебе тебя тем тём теми тех то тобой тобою того той только том тому тот тою ту ты у уже чего чем чему что чтобы эта эти этим этими этих это этого этой этом этому этот эту я
Для Google Ads список стоп-слов может быть шире: каких-то ограничений на это в Ads нет необходимости устанавливать. Фактически Ads может посчитать стоп-словом любое слово, перед которым вы не поставите модификатор широкого соответствия — выбор стоп-слов за вами.
Работа с операторами
Работа со стоп-словами подразумевает проставление либо удаление модификаторов перед ними.
Удалять модификаторы может быть нужно в нескольких случаях:
- Запрос в Директе состоит из семи слов без стоп-слов, с модификаторами — система не пропустит.
- Есть риск потерять охват из-за того, что пользователи могут не употреблять стоп-слова в запросе, а эквивалентных фраз без стоп-слов нет.
- Стоп-слова добавлены умышленно, для приукрашивания шаблонных заголовков.
Проставлять модификаторы нужно во всех обратных случаях.
Поскольку подход к стоп-словам в Директе и Ads различный, я сделал в своей надстройке два списка стоп-слов: общий и только для Директа. Каждый из списков можно использовать в макросах: удалить стоп слова, удалить операторы перед ними, проставить операторы «!» или «+». Выбор операторов обусловлен тем, что некоторые стоп-слова склоняются, например, весь, все, всех, всем и т. д.
Стоп-слова как маркер интента
Стоп-слова можно классифицировать по интенту. Этот лайфхак я обнаружил довольно давно и пользовался им при проработке минус-слов. Он заключается в том, что стоп-слова в сочетании с продвигаемой сущностью (услуга или товар) могут характеризовать запрос пользователя как релевантный или нерелевантный. На пути пользователя (customer journey map) основополагающий параметр, влияющий на взаимодействие с продуктом/услугой — временной промежуток. Утрируя, это до и после. Также пользователь может сомневаться и искать альтернативы — это происходит во время основного поиска.
Исходя из этого, я промаркировал стоп-слова по интенту, чтобы на их основе вычислять нерелевантные запросы.
До
Сюда входит много запросов, связанных с людскими страхами, сомнениями и стремлением их развеять путем обращения к поиску. Это — «теплая» аудитория, как правило, она не отличается высокой конверсией, но при умелой работе может приносить прибыль, так как зачастую с ней предпочитают не возиться и оставляют на потом ваши конкуренты.
Слова-маркеры:
- перед
- какой/какая/какие... + сущность
- вред
- последствия
- если
- о/об + услуга/товар
- при + услуга в сфере услуг
- ли (больно ли, вредно ли, стоит ли, нужно ли, можно ли, возможно ли, хорошо ли, правда ли...)
- и, разумеется, до + услуга — в сфере услуг
После
Сюда относятся поисковые запросы, обозначающие возникающие у пользователя проблемы уже после покупки товара или услуги. Это могут быть какие-либо дефекты товара или последствия некачественно оказанной услуги, необходимость замены, возврата, ремонта товара или поиск консультационного материала (что делать и как действовать в новых реалиях).
Основные маркеры:
- для + сущность
- под/подо + сущность
- на + сущность (кроме маркеров покупки: цена на товар, скидки на товар)
- в/во + сущность
- к/ко + сущность
- от + сущность
- сущность + не
- сущность + глагол (кроме глаголов-маркеров покупки)
- как (в товарной семантике, кроме фраз с маркерами покупки)
- после + сущность — в сфере услуг
Вместо
Здесь все просто: пользователь или вовсе не наш потенциальный клиент, или вероятность этого около 100%. Он ищет альтернативу нашему продукту, причем необязательно платную. Видов подобных интересов и деятельности много, портреты пользователя могут быть совершенно разные:
- Студент или специалист. Ищет статьи, рефераты, курсовые, курсы, образовательные заведения и т. д.
- DIY-энтузиаст. Ищет руководства и инструкции, пытается все сделать своими руками.
- Любитель порно.
- Искатель смысла. Интересуется сонниками, гороскопами, приметами, молитвами, гаданиями, приворотами и т. д.
- Геймер.
- Заядлый онлайнер. Его поведение перекликается с некоторыми вышеупомянутыми. Ищет анекдоты, приколы, видяхи, дровишки, софт, обои для рабочего стола и прочие похожие сущности. Эти слова не относятся к стоп-словам, но без их использования проработка нецелевой семантики была бы менее эффективной.
Из стоп-слов, характерных для подобного портрета:
- без + сущность
- вместо + сущность
- зачем + сущность или сущность + зачем
- почему + сущность или сущность + почему
- или + сущность или сущность + ли
- ли + сущность или сущность + ли
И этот список далеко не полный и будет существенно пополняться.
Минус-слова через стоп-слова — подробный алгоритм подбора
Зная интент, который дают фразам стоп-слова, и понимая релевантность самого интента, мы можем автоматизировать сбор нерелевантной семантики. Получится такая в своем роде кластеризация фраз по интенту через стоп-слова.
Как делается:
-
Выбираем нерелевантный интент.
-
Выбираем стоп-слова, характеризующие его.
-
Анализируем порядок следования стоп-слов и продвигаемой сущности.
-
Выбираем из семантического ядра все фразы с зафиксированными последовательностями. На этом этапе есть два варианта:
-
более точный, когда мы берем строго одно слово перед/после стоп-слов;
-
менее точный, но на выходе больше слов: составляем частотный словарь полученной семантики.
-
-
Удаляем очевидно полезные слова: маркеры покупки, эпитеты, геомаркеры, стоп-слова.
-
Profit! На самом деле все равно нужно пройтись по списку глазками.
Неочевидные сложности и их решение
- Непросто определить часть речи (глагол).
- Иногда между стоп-словом и продвигаемой сущностью может быть другое слово (например, эпитет). Если его предварительно не удалить, фраза не будет отфильтрована.
- Услуга может использоваться в запросе в любом склонении, поэтому нужна либо морфология, либо использование услуги во всех склонениях. Немного пожертвовав юзабилити и упростив разработку, я выбрал второй вариант.
Есть алгоритм — есть скрипт! Подбор слов от интента возможен в один клик в SEMTools. Публикация надстройки с реализованным в ней скриптом, делающим все это в один клик, совпадает с моим выступлением на SEMConf 14 сентября 2018 года.
На этой странице есть элементы, которые могут не отображаться на AMP-страницах.
Комментарии 0
Авторизуйтесь, чтобы оставить комментарий.