В портфолио Mail.Ru Group входит пул мобильных игр; компания активно развивает проекты, в том числе продвигая их и привлекая аудиторию. Важная часть этого процесса – оценка качества трафика. Чем раньше удается получить такую оценку, тем более оптимально можно распределить бюджет: точная информация о качестве трафика позволяет отключить неэффективные каналы и сосредоточиться на тех, которые приводят в игру самых платежеспособных и лояльных пользователей.
Чтобы минимизировать затраты и повысить монетизацию, команды Игровых аналитиков совместно с Поиском Mail.Ru и сервисом рекомендаций myWidget создали инструмент предиктивной аналитики, работающий на базе сервиса MyTracker и использующий технологии машинного обучения. Для ряда игровых проектов компании (Juggernaut Wars, «Эволюция», Hawk, Hustle Castle) были разработаны модели, прогнозирующие основные метрики – например, LTV (lifetime value – совокупный доход, получаемый за все время) – для любой выборки игроков на основе анализа данных, собранных всего за один – пять дней после установки игры этими пользователями.
На графике ниже – отчет по качеству прогнозов для команды медиабаинга, позволяющий постфактум убедиться, что прогнозы и решения, принятые на их основе, были верны.
Разработанный инструмент предиктивной аналитики нацелен на прогнозирование самого сложного показателя – LTV 90 дня в разрезе каждого пользователя. Это позволяет видеть любую, даже самую экзотическую, группу, без значительной вычислительной нагрузки.
Решение об отключении неэффективного канала должно приниматься как можно раньше и на основе максимально точных данных. Но цена ошибок недо- и переоценки неодинакова, и в нашем случае мы исходили из того, что лучше недооценить пользователя.
Для прогнозирования использовались данные о длительности пребывания пользователя в игровом приложении, о его платежах и устройстве, а также социально-демографические характеристики.
Поскольку в играх доля платящих пользователей невелика (может варьироваться от 1 до 10 % в зависимости от региона, жанра и внутренних механизмов монетизации) качество прогноза LTV ухудшалось из-за «длинного хвоста» неплатящих игроков. Эта проблема решалась семплированием неплатящих и добавлением признака «вероятность заплатить». На кросс-валидации классификатор «платящие – неплатящие» продемонстрировал довольно хорошие результаты (70% recall (полнота) и 95% ROC AUC), и предсказанные вероятности коррелировали с платежами.
Отдельной проблемой был учет многочисленных категориальных признаков. Здесь на помощь пришла техника кодирования значений категориальных признаков средним: например, для каждой страны на основе исторических данных высчитывалась доля платящих пользователей из этой страны.
В итоге нам удалось получить алгоритм, который предсказывает LTV, а заодно и вероятность того, что конкретный пользователь будет платить.
На графике ниже представлено распределение реального LTV когорты пользователей игрового приложения и прогноза LTV с помощью модели случайного леса.
Мы рассматривали также возможность прогнозирования LTV по срезу (например, «приложение – страна» или «приложение – кампания – партнер») на основе линейных моделей или более сложных – градиентного бустинга, случайного леса, пуассоновской регрессии и других: для этого достаточно иметь данные о динамике агрегированных платежей за первую неделю взаимодействия пользователя с приложением. Таким образом, у нас в распоряжении окажется прогноз LTV для сегмента пользователей, и по этому прогнозу можно судить о целесообразности привлечения соответствующего трафика. На кросс-валидации для разных приложений удалось спрогнозировать LTV по сегменту c относительной ошибкой от 0 до 25%.
В общих чертах процесс работы созданной предиктивной модели выглядит так.
Инструмент прогнозирования LTV, разработанный в компании, помогает Mail.Ru Group оптимизировать бюджет, выделенный на продвижение игр. Использование предиктивных моделей позволило сэкономить до 20% маркетингового бюджета: ранее эти деньги уходили на кампании, которые приводили в игру неплатящих или просто нерелевантных пользователей, но узнавали мы об этом по факту, то есть через несколько недель, когда оставалось только фиксировать убытки. Кроме того, удалось сэкономить до 15% времени сотрудников отдела закупки: прежде они были вынуждены самостоятельно анализировать и фактически пытаться угадать уровень качества трафика по данным за две – четыре недели. Таким образом, благодаря предиктивной аналитике мы вышли на качественно новый уровень эффективности в маркетинге.