Войти

[Гайд] Как выгрузить сырые данные из MyTracker и проанализировать их на наличие фрода

MyTracker теперь размечает фрод в сегментах аудитории. Нашим клиентам стало удобнее анализировать трафик своих приложений, а еще они могут выгрузить фродовые установки, чтобы провести дальнейший анализ или направить их партнеру для решения споров о возврате средств.

В этом гайде мы разберем метод работы с сырыми данными и фродом на примере метрики «Короткие установки».

С помощью сырых данных мы построим распределение метрики CTtI (Click Time to Install) — будем рассматривать время, прошедшее между последним кликом по рекламному баннеру, перед установкой приложения и самой установкой. Так как между этими событиями происходит целая цепочка действий, это время не может быть аномально коротким.

Подготовка к выгрузке сырых данных

Прежде чем выгружать установки и анализировать их на фрод, нам необходимо воспользоваться новым функционалом и создать два сегмента в интерфейсе MyTracker. Сделать это надо для того, чтобы получить установки, которые были размечены метрикой «Короткие установки», а также «чистые» по этой метрике установки.

Для этого в верхнем меню переходим в «Отчеты» → «Сегменты». На открывшейся странице нажимаем на «Добавить». Заполняем название сегмента, выбираем тип аудитории «Устройства», выбираем аккаунт, проекты и приложение.

Затем добавляем саму метрику «Короткие установки».

Сохраняем сегмент и используем его idSegment для выгрузки данных при помощи RAW API.

Для текущего примера мы также создадим аналогичный сегмент с метрикой «Короткие установки», но с активированным параметром «Исключить из сегмента», чтобы выделить «чистый» трафик.

Для анализа фродовых данных нам понадобится выгрузить следующие селекторы:

Для оспаривания трафика с партнером, идентификаторы необходимо выгружать в системах iOS и Android (GAID/IDFA).

Со всеми параметрами, которые можно выгрузить из MyTracker можно ознакомиться в разделе документации «Запрос на экспорт необработанных данных».

Таким образом, мы использовали сегмент с метрикой «Короткие установки» и сегмент с инвертированной метрикой и скачали два файла, в которых сохранены установки для фродовых и «чистых» устройств.

Анализ данных на фрод

В нашем примере все идентификаторы и названия партнеров (кроме партнера Organic) будут изменены.

Шаг 1: Объединяем фродовые и чистые установки в одну таблицу

После того, как мы распаковали данные, открыли их в Excel и разбили по ячейкам, мы получили две таблицы с данными — фродовыми и «чистыми». Создаем в каждой еще одну колонку, называем ее isFraud и заполняем единицами для фродовых установок , а для «чистых» — нулями.

Для анализа нам надо объединить обе таблицы в одну, чтобы фродовые и «чистые» установки были вместе. Для этого достаточно скопировать данные в одну общую таблицу.

Теперь, чтобы провести анализ данных на фрод по коротким кликам, нам надо вычислить время, которое проходит между кликом на рекламу и установкой приложения.

Но прежде чем это сделать, надо провести несколько подготовительных действий. Для начала, необходимо оставить только те установки, которые могут быть проанализированы с точки зрения коротких установок по клику.

Шаг 2: Фильтруем все органические установки 

Для этого в фильтре по колонке idPartnerTitle убираем партнера Organic.

raw data fraud

Шаг 3: Фильтруем все установки, у которых не установлено время клика 

Для этого в фильтре по колонке tsClick убираем значение 0.

raw data fraud

Шаг 4: Фильтруем все установки, которые были атрибутированы не по клику

Для этого в фильтре по колонке idAdEventTypeTitle оставляем только Post click.

raw data fraud

Шаг 5: Вычисляем время между кликом по рекламному баннеру и установкой приложения

Для приложения на iOS необходимо вычесть из значения в колонке tsEvent значение в колонке tsClick.

Для приложения на Android (как и в нашем примере) есть два способа:

  1. Можно использовать дополнительное значение из колонки androidReferrerTsClick, если его отправил Google Play. Это значение более точно показывает время взаимодействия пользователя, которое предшествовало установке. Если это значение есть, то можно вычислить разницу между значением из колонки tsEven и значением из колонки androidReferrerTsClick.

  2. Если этого значения нет, то делаем как для iOS: вычитаем из значения в колонке tsEvent значение в колонке tsClick.

В нашем примере это можно сделать при помощи функции =C2-ЕСЛИ(F2<>0;F2;E2), если у вас русская версия Excel или функции =C2-IF(F2<>0,F2,E2), если версия английская.

Полученное значение сохраним в колонке delta.

raw data fraud

Шаг 6: Ограничиваем значение delta

Мы исследуем только короткие установки, поэтому для построения графика необходимо ограничить полученное значение в колонке delta.

При помощи фильтра оставляем только те значения, для которых установка попадет в первую минуту после клика — значение delta меньше 3600 (это значение индивидуально для каждого приложения).

raw data fraud

Шаг 7: Фильтруем партнеров для выявления фрода

Чтобы выявить наличие фрода в приложении, нам надо проверить фрод в трафике от каждого из партнеров.

Если смотреть на всем приложении, то данные будут перемешаны и нельзя будет сделать вывод об источнике фрода. Потому что у разных партнеров могут быть разные подходы к рекламе. К тому же, «вопросы» о качестве трафика адресуются каждому партнеру отдельно.

В этом примере оставим только партнера Partner1.

raw data fraud

Шаг 8: Строим график по выгруженным сырым данным

Выделяем колонку delta и строим по ней гистограмму. Получается вот такой график:

raw data fraud

На нем видно аномальное распределение времени от клика по рекламному баннеру до установки — оно заключается в первом пике, отрезок от 0 до 25 секунд.

Так мы нашли фрод CTtI у партнера Partner1.

Вы можете использовать сегмент с фродовыми установками и регулярно выгружать вот такие установки, чтобы в дальнейшем улучшать свое взаимодействие с рекламными партнерами.

Но это еще не все

К сожалению, даже после всех этих манипуляций с таблицами мы не выявили весь фрод в приложении. Тому есть несколько причин:

И даже в примере с данным партнером мы нашли не весь фрод. Ниже представлен график из нашей внутренней системы, который показывает, что часть установок имеют другую delta, однако размечены фродовыми. Потому что в нашей антифрод-системе Fraud Scanner аномальный пик выделяется не глазами аналитика, а автоматически, после всестороннего анализа, что делает результат гораздо точнее.

raw data fraud

Но и это еще не все трудности, с которыми можно столкнуться. Вот пример, на котором наглядно видны два пика и аномальное распределение, при этом установок — много.

raw data fraud

В реальности такие случаи довольно редки — либо из-за малого числа установок, либо из-за более сглаженного вида гистограммы. Тогда становится намного сложнее выявить фрод, потому что перед глазами только одна гистограмма. Но это не проблема для нашей системы Fraud Scanner, которая способна найти фрод даже на небольших когортах.

Метки: сырые данные антифрод