Войти

7 золотых правил A/B-тестирования, которые сэкономят ваше время и бюджеты

Что такое A/B-тестирование

A/B-тестирование или сплит-тест — это способ проверки гипотез по улучшению продукта.

С его помощью можно получить наиболее точную информацию о том, как изменения в дизайне, тексте и ценоформировании повлияют на рост дохода, удержания и других ключевых метрик.

Во время проведения теста пользователей делят на две случайные группы. Одной группе показывают старый вариант без изменений (A), а другой группе — новый вариант (B). После набора достаточного объема данных, варианты сравнивают и выбирают лучший.

правила ab тестирования


Звучит легко, однако на практике только 1 из 8 A/B-тестов дает действительно значимый результат.

На результат сплит-теста может повлиять много факторов: 

Как правильно провести A/B-тестирование

Для получения точных данных, важно придерживаться определенных правил на протяжении всего тестирования — от постановки цели до анализа результатов. 

В этой статье мы рассмотрим семь основных правил A/B-тестирования, которые помогут сэкономить время и бюджет в долгосрочной перспективе.

Правило 1. Сформировать гипотезу

Гипотеза — это формулировка вероятного решения задачи.

Например, на данный момент конверсия онлайн-магазина — 4%. Маркетолог, который недавно посмотрел вебинар о восприятии цветов, предлагает изменить текущий агрессивный красный цвет кнопки «Купить» на более приятный зеленый. Чтобы пользователь не ощущал давления. Предполагается, что это может увеличить конверсию в 2-2,5 раза.

В этом случае гипотеза формулируется так: «Если изменить цвет кнопки “Купить” с красного на зеленый, то конверсия увеличится с 4% до 10%».

В результате A/B-тестирования эта гипотеза либо подтвердится (конверсия на странице с зеленой кнопкой вырастет до 10%), либо опровергнется (конверсия станет хуже, останется прежней или изменится всего на 0,5-1%).

Правило 2. Рассчитать аудиторию

Размер аудитории для тестирования можно рассчитать с помощью формулы:

формула расчёта аудитории для ab тестирования

n — объем выборки, который мы хотим вычислить.

Z — коэффициент, который берут из специальной таблицы в зависимости от доверительного уровня. Обычно значения доверительного уровня равны 0.95 и 0.99. Значения Z при данных уровнях равно 1.96 и 2.58

p — это количество пользователей по истории, которое совершали нужно действие (например, делали покупку со старой версии лендинга). Если исторических данных нет, то используется значение равное 0.5 (50%).

q = 1 - p — доля респондентов, у которых исследуемый признак отсутствует.

∆ — предельная ошибка выборки. Считается, что для принятия бизнес-решений ошибка выборки должна быть не больше 4%. Этому значению соответствует объем выборки в 500-600 респондентов. Для важных стратегических решений необходимо минимизировать ошибку выборки.

ab тестирование
Кривая зависимости ошибки выборки от ее объема.

Во время работы с аудиторией важно соблюдать еще несколько правил:

Стоит определиться: проводить ли тестирование на всей аудитории или на определенной части. Если проводить на всех, то необходимое количество людей наберется быстрее. Однако, если гипотеза окажется неверной, то это может сильнее сказаться на репутации и доходе компании.

Помимо этого, стоит подумать о составе аудитории — это будут только новые пользователи или постоянные. В большинстве случаев, новые пользователи предпочтительнее, потому что постоянные привыкли к интерфейсу и могут не заметить изменений.

Правило 3. Проводить тест на группах устройств

Изменения на разных устройствах могут выглядеть по-разному. Например, маленькие детали будут теряться на больших экранах.

Необходимо следить за тем, чтобы на протяжении теста устройства равномерно распределялись между сегментами аудитории. Если неправильно распределить устройства на этом этапе, то придется перезапускать тест — данные будут искажены.

Если у вас много устройств разных типов, например, 40% смартфонов с разрешением экрана 750 x 1334, 40% смартфонов с разрешением 1440 x 2960 и 20% планшетов с разрешением 2048 x 2732, то стоит их разделить и запускать отдельные тесты на каждой группе устройств.

Чаще всего, во время проведения A/B-тестирования устройства делят по 2 типам: WEB и mobile.

Правило 4. Выбрать метрику

Метрика для A/B-тестирования должна соответствовать гипотезе.

Возьмем гипотезу из примера в начале: «Если изменить цвет кнопки “Купить” с красного на зеленый, то конверсия увеличится с 4% до 10%». Здесь нужно использовать метрику «Коэффициент конверсии» — отношение пользователей, которые нажали на кнопку, ко всем посетителям страницы за определенный период.

В этом случае не важно, сколько времени длилась сессия или как изменился доход — это предметы для отдельных тестов. Их измерение может исказить подтверждение изначальной гипотезы.

Для успешного проведения сплит-теста важно запомнить простое правило:

Одна цель — один элемент — одна метрика

При тестировании сразу нескольких элементов нельзя точно определить, что повлияло на увеличение показателей.

Также стоит учитывать, что количество пользователей в тестируемых группах не всегда абсолютно равно. Поэтому для тестирования стоит выбирать метрики без привязки к числу пользователей: ARPU вместо «Дохода» или Registration Rate вместо точного количества регистраций.

Правило 5. Определиться со временем проведения теста

Длительность проведения A/B-теста во многом зависит от цели и объема аудитории, необходимого для получения статистической значимости.

Многие инструменты для проведения A/B-тестов берут за минимум временной период в две недели, потому что его достаточно для сбора данных и достижения большинства целей при небольших изменениях. Также, это позволяет охватить поведение пользователей в разные дни. Ведь оно может сильно различаться в понедельник, пятницу и воскресенье.

Однако, если речь идет о большой выборке, значительных изменениях или высоком показателе статистической значимости, то тесты могут длиться и в течение одного-трех месяцев.

Существует два простых правила проведения сплит-теста:

Помимо этого, важно не заглядывать в «окно» и не делать поспешных выводов. В ситуации, когда «вариант B» уверенно лидирует в течение нескольких дней и полностью соответствует ожиданиям, очень хочется поскорее его внедрить.

Нельзя останавливать тест раньше установленного срока. Полученные значения могут измениться в любой момент, поэтому преждевременная оценка результатов сводит смысл проведения теста к нулю.

Правило 6. Учитывать статистическую значимость

Результаты сплит-теста можно считать достоверными только при определенном уровне статистической значимости.

Статистическая значимость — это процент уверенности в том, что результаты не оказались простой случайностью. Часто используемые уровни значимости — 90%, 95% и 99%.

Например, при значимости в 95%, в нашем примере с кнопками считается, что 5 из 100 кликов произошли вне зависимости от изменения цвета.

Если предположить, что гипотеза подтвердилась. Конверсия в примере действительно повысилась с 4% до 10% при статистической значимости в 95%. Такой результат можно считать достоверным. Для наглядности построим график.

калькулятор ab тестов
Источник: https://abtestguide.com/calc/

Но если конверсия повысилась с 4% до 5,5% при статистической значимости в 95%, то результат, с большой долей вероятности, можно списать на случайность. 

Представьте, что пересечение графиков — это количество пользователей, для которых нет разницы на красную или зеленую кнопку им нажимать.

Источник: https://abtestguide.com/calc/

Правило 7. Проверять работоспособность системы

A/B-тестирование — это сложный и многоступенчатый процесс со многими параметрами, которые надо контролировать:

Чтобы удостовериться в точности результатов будущих тестов, необходимо проверять работоспособность системы перед началом тестирования. Для этого существует два способа.

A/A-тест

Используется для проверки корректности работы системы.

Во время этого теста два одинаковых варианта сравниваются между собой. В результате должны получиться одинаковые значения метрик.

Если метрики отличаются на статистически значимую величину, то следует проверить систему разбивки пользователей на группы и систему сбора результатов.

A/A/B-тест

Используется, когда нужно постоянно проверять работу теста.

Это смешение двух видов теста: сначала проводится A/A-тест, и если подтверждается работоспособность системы, то автоматически стартует обычное A/B-тестирование.

Главный минус данного варианта в том, что нужно больше пользователей для проведения теста и больше времени для сбора статистики.

Что в итоге

Для успешного проведения A/B-тестирования необходимо строго следовать семи правилам:

как проводить AB тестирование

Если не придерживаться этих правил, то смысла в проведении A/B-тестирования не будет — придется каждый раз перезапускать тест, а это упущенное время и деньги, которые можно было потратить на развитие продукта.

Худший сценарий — когда на основании неправильного тестирования принимается бизнес-решение, в которое затем вливаются значительные бюджеты и напрасно тратятся усилия команды. Это может привести к значительным материальным и репутационным потерям.

Автоматические сплит-тесты 

Хорошие новости в том, что сплит-тестирование можно автоматизировать, чтобы владельцы сайтов и мобильных приложений могли развивать свой бизнес и не отвлекаться на постоянный контроль процессов. Особенно когда речь идет об увеличении дохода приложения.

Узнайте, как игра Hustle Castle смогла увеличить ARPU сегмента игроков на 23% c помощью MyTracker Personalize: подробности трехмесячного эксперимента по внедрению моделей персонализации Personalize в игровой симулятор Hustle Castle.

Метки: игры A/B-тестирование