A/B-тестирование или сплит-тест — это способ проверки гипотез по улучшению продукта.
С его помощью можно получить наиболее точную информацию о том, как изменения в дизайне, тексте и ценоформировании повлияют на рост дохода, удержания и других ключевых метрик.
Во время проведения теста пользователей делят на две случайные группы. Одной группе показывают старый вариант без изменений (A), а другой группе — новый вариант (B). После набора достаточного объема данных, варианты сравнивают и выбирают лучший.
Звучит легко, однако на практике только 1 из 8 A/B-тестов дает действительно значимый результат.
На результат сплит-теста может повлиять много факторов:
Для получения точных данных, важно придерживаться определенных правил на протяжении всего тестирования — от постановки цели до анализа результатов.
В этой статье мы рассмотрим семь основных правил A/B-тестирования, которые помогут сэкономить время и бюджет в долгосрочной перспективе.
Гипотеза — это формулировка вероятного решения задачи.
Например, на данный момент конверсия онлайн-магазина — 4%. Маркетолог, который недавно посмотрел вебинар о восприятии цветов, предлагает изменить текущий агрессивный красный цвет кнопки «Купить» на более приятный зеленый. Чтобы пользователь не ощущал давления. Предполагается, что это может увеличить конверсию в 2-2,5 раза.
В этом случае гипотеза формулируется так: «Если изменить цвет кнопки “Купить” с красного на зеленый, то конверсия увеличится с 4% до 10%».
В результате A/B-тестирования эта гипотеза либо подтвердится (конверсия на странице с зеленой кнопкой вырастет до 10%), либо опровергнется (конверсия станет хуже, останется прежней или изменится всего на 0,5-1%).
Размер аудитории для тестирования можно рассчитать с помощью формулы:
n — объем выборки, который мы хотим вычислить.
Z — коэффициент, который берут из специальной таблицы в зависимости от доверительного уровня. Обычно значения доверительного уровня равны 0.95 и 0.99. Значения Z при данных уровнях равно 1.96 и 2.58
p — это количество пользователей по истории, которое совершали нужно действие (например, делали покупку со старой версии лендинга). Если исторических данных нет, то используется значение равное 0.5 (50%).
q = 1 - p — доля респондентов, у которых исследуемый признак отсутствует.
∆ — предельная ошибка выборки. Считается, что для принятия бизнес-решений ошибка выборки должна быть не больше 4%. Этому значению соответствует объем выборки в 500-600 респондентов. Для важных стратегических решений необходимо минимизировать ошибку выборки.
Во время работы с аудиторией важно соблюдать еще несколько правил:
Стоит определиться: проводить ли тестирование на всей аудитории или на определенной части. Если проводить на всех, то необходимое количество людей наберется быстрее. Однако, если гипотеза окажется неверной, то это может сильнее сказаться на репутации и доходе компании.
Помимо этого, стоит подумать о составе аудитории — это будут только новые пользователи или постоянные. В большинстве случаев, новые пользователи предпочтительнее, потому что постоянные привыкли к интерфейсу и могут не заметить изменений.
Изменения на разных устройствах могут выглядеть по-разному. Например, маленькие детали будут теряться на больших экранах.
Необходимо следить за тем, чтобы на протяжении теста устройства равномерно распределялись между сегментами аудитории. Если неправильно распределить устройства на этом этапе, то придется перезапускать тест — данные будут искажены.
Если у вас много устройств разных типов, например, 40% смартфонов с разрешением экрана 750 x 1334, 40% смартфонов с разрешением 1440 x 2960 и 20% планшетов с разрешением 2048 x 2732, то стоит их разделить и запускать отдельные тесты на каждой группе устройств.
Чаще всего, во время проведения A/B-тестирования устройства делят по 2 типам: WEB и mobile.
Метрика для A/B-тестирования должна соответствовать гипотезе.
Возьмем гипотезу из примера в начале: «Если изменить цвет кнопки “Купить” с красного на зеленый, то конверсия увеличится с 4% до 10%». Здесь нужно использовать метрику «Коэффициент конверсии» — отношение пользователей, которые нажали на кнопку, ко всем посетителям страницы за определенный период.
В этом случае не важно, сколько времени длилась сессия или как изменился доход — это предметы для отдельных тестов. Их измерение может исказить подтверждение изначальной гипотезы.
Для успешного проведения сплит-теста важно запомнить простое правило:
Одна цель — один элемент — одна метрика
Также стоит учитывать, что количество пользователей в тестируемых группах не всегда абсолютно равно. Поэтому для тестирования стоит выбирать метрики без привязки к числу пользователей: ARPU вместо «Дохода» или Registration Rate вместо точного количества регистраций.
Длительность проведения A/B-теста во многом зависит от цели и объема аудитории, необходимого для получения статистической значимости.
Многие инструменты для проведения A/B-тестов берут за минимум временной период в две недели, потому что его достаточно для сбора данных и достижения большинства целей при небольших изменениях. Также, это позволяет охватить поведение пользователей в разные дни. Ведь оно может сильно различаться в понедельник, пятницу и воскресенье.
Однако, если речь идет о большой выборке, значительных изменениях или высоком показателе статистической значимости, то тесты могут длиться и в течение одного-трех месяцев.
Существует два простых правила проведения сплит-теста:
Помимо этого, важно не заглядывать в «окно» и не делать поспешных выводов. В ситуации, когда «вариант B» уверенно лидирует в течение нескольких дней и полностью соответствует ожиданиям, очень хочется поскорее его внедрить.
Нельзя останавливать тест раньше установленного срока. Полученные значения могут измениться в любой момент, поэтому преждевременная оценка результатов сводит смысл проведения теста к нулю.
Результаты сплит-теста можно считать достоверными только при определенном уровне статистической значимости.
Статистическая значимость — это процент уверенности в том, что результаты не оказались простой случайностью. Часто используемые уровни значимости — 90%, 95% и 99%.
Например, при значимости в 95%, в нашем примере с кнопками считается, что 5 из 100 кликов произошли вне зависимости от изменения цвета.
Если предположить, что гипотеза подтвердилась. Конверсия в примере действительно повысилась с 4% до 10% при статистической значимости в 95%. Такой результат можно считать достоверным. Для наглядности построим график.
Но если конверсия повысилась с 4% до 5,5% при статистической значимости в 95%, то результат, с большой долей вероятности, можно списать на случайность.
Представьте, что пересечение графиков — это количество пользователей, для которых нет разницы на красную или зеленую кнопку им нажимать.
A/B-тестирование — это сложный и многоступенчатый процесс со многими параметрами, которые надо контролировать:
Чтобы удостовериться в точности результатов будущих тестов, необходимо проверять работоспособность системы перед началом тестирования. Для этого существует два способа.
Используется для проверки корректности работы системы.
Во время этого теста два одинаковых варианта сравниваются между собой. В результате должны получиться одинаковые значения метрик.
Если метрики отличаются на статистически значимую величину, то следует проверить систему разбивки пользователей на группы и систему сбора результатов.
Используется, когда нужно постоянно проверять работу теста.
Это смешение двух видов теста: сначала проводится A/A-тест, и если подтверждается работоспособность системы, то автоматически стартует обычное A/B-тестирование.
Главный минус данного варианта в том, что нужно больше пользователей для проведения теста и больше времени для сбора статистики.
Для успешного проведения A/B-тестирования необходимо строго следовать семи правилам:
Если не придерживаться этих правил, то смысла в проведении A/B-тестирования не будет — придется каждый раз перезапускать тест, а это упущенное время и деньги, которые можно было потратить на развитие продукта.
Худший сценарий — когда на основании неправильного тестирования принимается бизнес-решение, в которое затем вливаются значительные бюджеты и напрасно тратятся усилия команды. Это может привести к значительным материальным и репутационным потерям.
Хорошие новости в том, что сплит-тестирование можно автоматизировать, чтобы владельцы сайтов и мобильных приложений могли развивать свой бизнес и не отвлекаться на постоянный контроль процессов. Особенно когда речь идет об увеличении дохода приложения.
Узнайте, как игра Hustle Castle смогла увеличить ARPU сегмента игроков на 23% c помощью MyTracker Personalize: подробности трехмесячного эксперимента по внедрению моделей персонализации Personalize в игровой симулятор Hustle Castle.