Оставить заявку
Напишите нам

Роль статистической значимости при повышении конверсии: 6 вещей, которые нужно знать

Совсем недавно Владимир Давыдов написал пост в facebook про A/B- или MVT-тестирование, который вызвал массу вопросов.

Обычно проведение A/B- или MVT-тестирований на сайтах — вещь очень сложная. Хотя «посадочникам» кажется, что это элементарно, ведь «этсамое, есть же специальные программы, гыг».

Если вы решили тестировать веб-содержимое, помните:

1. Для начала нужно изолировать равнозначную, равновеликую, равнокачественную аудиторию. Провести A/A-тесты. Подавляющее большинство тестов, которые проводят агентства на потоке или неопытные интернет-маркетологи, не верны. Именно по той причине, что тестируется содержимое на разных аудиториях.

2. Проводите десятки или лучше сотни тестов в течение нескольких месяцев. Тестировать недельку 2-3 варианта странички не стоит.

3. Помните, что тестировать можно и в формате MVT (то есть много вариантов), а не только A и B.

4. Статистически проанализируйте массив данных с результатами тестов (в Excel абсолютно окей, можно ещё SPSS использовать). Находятся ли результаты в рамках погрешности, насколько сильно отклоняются и как зависят от времени. Если, например, в первом пункте A/A-теста вы получили сильные отклонения одного варианта от другого — это провал, и дальше тестировать нельзя.

5. Не надо тестировать все подряд. Это не развлечение (только если вам реально больше нечего делать). Тестировать имеет смысл только то, что с точки зрения маркетингового и бизнес-анализа способно привести к заметным результатам. А также то, результат от чего можно реально измерить. Например, вы решили увеличить размер шрифта на сайте, потестировали пару недель страницу с большим шрифтом — продажи выросли. О чем это говорит? Вот и мне ни о чем (см. предыдущие пункты).

6. Тестировать нужно пути целиком. То есть недостаточно взять и протестировать страницу покупки (или какого-то действия на сайте) — нужно тестировать и те страницы и шаги, которые подводят к этой финальной конверсионной странице.

7. Тестировать нужно и рекламные каналы (а не только страничку на сайте).

В комментариях был задан вопрос:

«Как устанавливать победителя? Вот протестировали мы заголовок на странице, продающей «в лоб». Какая разница в конверсии должна быть между А и B, чтобы признать победителя?»

Ответ Владимира:

Во-первых, нужно проводить длительные изолированные эксперименты (базовое правило любой статистической оценки).  Во-вторых, все неминуемо сводится к статистике и математике (поэтому и рекомендую excel и spss или аналоги бесплатные)  Нам нужно посчитать доверительную вероятность того, что разница в значениях чего-то значит. Есть хорошая статья (одна из многих). Там берут транзакции из GA по проводимым Optimizely-тестам https://www.distilled.net/uploads/ga_transactions.png , сравнивают транзакции (покупки) обычным колокольным распределением и смотрят, попадает ли среднее значение в рамки доверительного интервала погрешности https://www.distilled.net/uploads/t-test_tool.png

Вот статья целиком: https://www.distilled.net/resources/statistical-significance-for-cro-6-things-you-need-to-know/

Роль статистической значимости при повышении конверсии: 6 вещей, которые нужно знать

298-1.jpg

Весь смысл статистической значимости заключается в том, чтобы определить, имеет ли под собой какое-то основание разница между двумя показателями, или же она случайна. В этой публикации я постараюсь осветить шесть моментов, которые нужно знать, чтобы верно определять статистическую значимость для А/B-тестов показателей конверсии, а также для более широких аналитических данных.

1. Именно то, что это значит

298-2.jpg

«Изменение позволило достичь повышения конверсии на 20% с доверительной вероятностью 90%». К сожалению, это утверждение вовсе не равнозначно другому, очень похожему: «Шансы повысить конверсию на 20% составляют 90%». Так о чем же речь на самом деле?

20% — это рост, который мы зафиксировали по результатам тестов на одном из образцов. Если бы мы начали фантазировать и строить догадки, мы бы могли предположить, что этот рост может сохраняться постоянно – если мы будем продолжать тестирование до бесконечности. Но это никак не означает, что с вероятностью 90% мы получим двадцатипроцентный рост конверсии или рост «как минимум» в 20%, или «приблизительно» в 20%.

90% — это вероятность проявления каких бы то ни было изменений в конверсии. Другими словами, если бы мы проводили десять А/B-тестов, чтобы получить этот результат, и решили бы проводить все десять до бесконечности, то один из них (так как вероятность изменений 90%, то 10% остаётся на неизменный исход), вероятно, закончился бы приближением результата «после теста» к первоначальной конверсии – то есть, без изменений. Из остающихся девяти тестов некоторые могли бы показать рост, составляющий куда меньше 20%. В других результат мог бы превысить эту планку.

Если неверно интерпретировать эти данные, мы сильно рискуем, «выкатывая» тест. Легко обрадоваться, когда тест показывает высокие показатели роста конверсии с доверительной вероятностью в 95%, но мудрее было бы не ожидать слишком многого, пока тест не доведен до логического завершения.

2. Когда использовать

Самые очевидные кандидаты – сплит-тесты «А/В», но они далеко не единственные. Можно также проводить тестирование статистически значимой разницы между сегментами (например, посещениями через обычный и через оплаченный поиск) или временными промежутками (например, апрелем 2013 года и апрелем 2014 года).

298-3.jpg

Однако стоит заметить, что эта корреляция не подразумевает причинно-следственную связь. Проводя сплит-тесты, мы знаем, что можем приписать любые изменения результатов тем элементам, которыми различаются страницы – ведь особое внимание уделяется тому, чтобы в остальном страницы были совершенно идентичны. Если вы сравниваете такие группы, как посетители, пришедшие из обычного и платного поиска, сработать могут любые другие факторы – к примеру, из обычного поиска может быть много посещений по ночам, а конверсия среди ночных посетителей весьма высока. Тесты на значимость помогают установить, есть ли у изменений причина, но они не смогут сказать, в чем именно она заключается.

3. Как тестировать изменения показателей конверсии, отказов и выходов (exit rate)

Когда мы смотрим на «показатели», на самом деле мы видим усредненные значения двоичных переменных – кто-то либо выполнил целевые действия, либо нет. Если у нас есть выборка в 10 человек с показателем конверсии в 40%, на самом деле мы смотрим на подобную таблицу:

298-4.jpg

Эта таблица потребуется нам вкупе со средним показателем, чтобы вычислить среднее отклонение – ключевой компонент статистической значимости. Однако тот факт, что каждое значение в таблице является либо нулем, либо единицей, облегчает нам задачу – мы можем обойтись без необходимости копировать огромный список цифр, воспользовавшись калькулятором для подсчета доверительной вероятности А/B-тестов, и отталкиваясь от знания среднего показателя и размеров выборки. Это инструмент от KissMetrics.

298-5.jpg

(Важно! Этот инструмент в расчетах принимает во внимание только одну сторону “колокола” распределения вероятности. Чтобы использовать обе стороны и перевести результат в двустороннюю значимость, нужно удвоить дистанцию от 100% — например, односторонние 95% становятся двусторонними 90%).

Несмотря на то, что в описании значится «инструмент тестирования достоверности А/B-тестов», его также можно использовать для любого другого сравнения показателей – просто замените конверсию на показатель отказов или выходов. Кроме того, его можно использовать и для сравнения сегментов или промежутков времени – вычисления будут те же.

Также, он хорошо подходит для мультивариантных тестирований (MVT) – просто сравнивайте с оригиналом каждое изменение по отдельности.

4. Как тестировать изменения среднего чека

Чтобы тестировать средние значение недвоичных переменных, нам потребуется полный набор данных, так что здесь все немного сложнее. Например, мы хотим установить, есть ли значимые различия средней суммы заказа для сплит-теста А/В – этот момент часто опускают при оптимизации конверсии, хотя для бизнес-показателей он так же важен, как и сама конверсия.

Первое, что нам нужно, это получить из Google Analytics полный список транзакций для каждого варианта теста — для А и B (было, стало). Простейший способ это сделать – создать пользовательские сегменты, базирующиеся на переменных (custom variables) для вашего сплит-теста, а затем экспортировать отчет по транзакциям в таблицу Excel. Убедитесь, что туда войдут все транзакции, а не только 10 строк, указанных по умолчанию.

298-6.jpg

Когда у вас есть два списка транзакций, их можно скопировать в подобный инструмент:

298-7.jpg

В вышеозначенном случае у нас нет доверительной вероятности на выбранном уровне в 95%. На самом деле, если мы взглянем на показатель «p» над нижним графиком, составляющий 0,63, станет ясно, что у нас нет даже 50% значимости – существует вероятность в 63%, что разница между показателями страниц является чистой случайностью.

5. Как предугадать необходимую продолжительность сплит-теста А/В

На Evanmiller.org есть еще один удобный инструмент для оптимизации конверсии – калькулятор размера выборки.

Этот инструмент позволяет дать ответ на вопрос «Сколько потребуется времени, чтобы получить достоверные результаты теста?», и этот ответ не стоит пытаться угадать.

298-8.jpg

Стоит отметить несколько моментов. Во-первых, у инструмента есть переключатель «абсолютное/относительное» — если вы хотите выяснить разницу между базовым показателем конверсии в 5% и переменным показателем конверсии в 6%, он составит 1% в абсолютном выражении (6-5=1) или 20% в относительном выражении (6/5=1,2). Во-вторых, внизу страницы есть два «бегунка». Нижний отвечает за требуемый уровень значимости – если вашей целью является получение значимости в 95%, то бегунок нужно выставить на 5%. Верхний бегунок показывает вероятность того, что количество требуемых посещений страницы окажется достаточным – к примеру, если вы хотите узнать количество визитов, необходимых для достижения восьмидесяти процентного шанса обнаружить значимость в 95%, выставьте верхний бегунок на 80%, а нижний на 5%.

6. Чего не нужно делать

Есть несколько простых путей выявить непригодность сплит-теста, которые, однако, далеко не всегда очевидны с первого взгляда:

А) Сплит-тестирование недвоичных порядковых значений

Например, ваша цель – выяснить, имеет ли место значимая разница вероятностей того, что посетители из групп «первоначальная» и «после изменений» купят определенные продукты. Вы помечаете три продукта «1», «2» и «3», а затем вводите эти значения в поля теста на значимость. К сожалению, этот подход не сработает – продукт 2 не является средним значением продуктов 1 и 3.

Б) Настройки распределения трафика

298-9.jpg

В начале теста вы решаете не рисковать и выставляете распределение трафика 90/10. Спустя какое-то время вы видите, что изменение не привело к заметным изменениям в конверсии, и перемещаете бегунок к значению 50/50. Но возвращающиеся посетители по-прежнему принадлежат к своей первоначальной группе, поэтому вы оказываетесь в ситуации, где версия «до изменений» отличается большей долей вернувшихся посетителей, показывающих высокую вероятность конверсии. Все очень быстро усложняется, и единственный простой путь получить данные, на которые можно положиться, заключается в том, чтобы по отдельности рассматривать новых и вернувшихся посетителей. Однако в этом случае на получение значимых результатов уйдет больше времени. И даже если обе подгруппы покажут значимые результаты, что, если одна из них на самом деле генерирует больше вернувшихся посетителей? В общем, не нужно этого делать и менять в течение теста распределение трафика.

В) Планирование

Выглядит очевидным, но не стоит сравнивать данные, собранные в одно и то же время дня, с данными, собранными в течение суток или в другое время дня. Если вы хотите провести тест в отношении конкретного времени дня, у вас есть два варианта.

1. Обрабатывать запросы посетителей, как и всегда, в течение дня, но показывать им оригинальную версию страницы в то время дня, в котором вы не заинтересованы.

2. Сравнивать яблоки с яблоками – если вы рассматриваете только данные по изменениям за первую половину дня, сравнивайте их с первоначальными данными за первую половину дня.

Надеюсь, что-то из вышеизложенного окажется полезным для оптимизации вашей конверсии. Если у вас есть свои ноу-хау, пожалуйста, излагайте их в комментариях.

Источник: публикация Тома Кэппера на Distilled.com
https://www.distilled.net/resources/statistical-significance-for-cro-6-things-you-need-to-know/

Оценка

3 (голосов 2)

Оставить комментарий