Анализ соответствия размера выборки и плановых значений метрик A/B-теста
Использованы материалы:
-
Pandas, Numpy, Matplotlib, Statsmodels, Tqdm
-
Monte Carlo Method, A/B Test Calculator by Gleb Mikhaylov, Evan Miller Sample Size Calculator, LaTeX
Цель – на этапе планирования A/B-теста провести анализ соответствия плановых значений метрик теста и расчитанного размера выборки.
Для достижения цели были решены следующие задачи:
-
рассмотрены подходы к применению случайных чисел для оценки метрик A\B-теста;
-
реализована оценка результатов A/B-теста с помощью метода Монте-Карло и онлайн-калькулятора Глеба Михайлова;
-
реализована оценка результатов A/B-теста с помощью метода Монте-Карло и онлайн-калькулятора Эвана Миллера;
-
разработан алгоритм получения желаемых метрик A\B-теста отдельно для двусторонней и односторонней гипотез;
-
расчитана шкала значений p_value с помощью метода Монте-Карло и с помощью статистического теста
(1) На этапе моделирования A/B-теста предварительный расчет необходимого размера выборки был проведен с помощью статистических онлайн-калькуляторов Глеба Михайлова и Эвана Миллера. Были запланированы следующие параметры A\B-теста:
-
Baseline Conversion Rate 0.03
-
Minimum Detectable Effect 0.02
-
Test to Control Group Ratio 1.0
-
Power (Desired minimum True Positive Rate) 0.8
-
Significance (Desired maximum False Positive Rate) 0.05
(2) Для планируемого уровня мощности теста онлайн-калькулятор Глеба Михайлова предоставил более точную оценку по требуемому размеру выборки на этапе планирования A/B-теста, чем Sample Size Calculator Эвана Миллера.
(3) Для двусторонней и односторонней гипотез разработаны алгоритмы получения желаемых метрик A\B-теста на этапе планирования эксперимента.
Алгоритм подбора параметров определен следующим образом:
-
Отклонение от нормы (пороговое значение) на каждой итерации корректируется таким образом, чтобы значение Significance (alpha) было максимально приближено к 0.05 (5%).
-
Оптимальный, наиболее эффективный размер выборки определяется таким образом, чтобы подобрать наименьший размер выборки, позволяющий получить желаемые размеры метрик A\B-теста, - для снижения стоимости и длительности проведения теста.
(4) Рассчитана шкала значений p_value для набора пороговых значений отдельно методом Монте-Карло и отдельно с помощью статистического метода (proportions_ztest). Полученные значения p_value практически идентичны. Небольшое различие зафиксировано только для самого первого порога, при котором удовлетворенность клиентов услугами сервиса точно соответствует значению из Н0.
A/B Test Calculator by Gleb Mikhaylov
Evan Miller Sample Size Calculator