12.07 - A/B-тесты - статистические основы

A/B-тест без статистики - это гадание. p-value, sample size, MDE - не академическая теория, а инструменты принятия решений.

#intermediate #advanced #block-12

Основные понятия

H₀ (null): Вариант B не отличается от A (нет эффекта)
H₁ (alternative): Вариант B отличается от A (есть эффект)

p-value - вероятность получить такой же (или более экстремальный) результат, если H₀ верна.

⚠️ p-value ≠ вероятность, что B лучше A. Это вероятность данных при условии, что разницы нет.

Зависит от:

Baseline conversion rate (текущая конверсия)
MDE (Minimum Detectable Effect) - минимальное изменение, которое хотите обнаружить
Statistical power (обычно 80%)
Significance level (обычно 95%, α = 0.05)

Калькулятор: Evan Miller A/B Test Calculator

Duration = Required Sample Size / Daily Traffic per Variant

Пример: 25,000 / 500 visitors/day = 50 дней → слишком долго? Увеличьте MDE или трафик.

Ошибка	Проблема	Решение
Peeking	Смотреть результаты каждый день → ложные выводы	Определить sample size заранее, ждать до конца
Stopping early	«Уже значимо на 3 день!» → p-value inflated	Минимум 1 полный бизнес-цикл (7 дней)
Multiple testing	Тестируете 10 метрик → одна будет «значимой» случайно	Bonferroni correction: α / n
Novelty effect	Новый дизайн «лучше» просто потому что новый	Запускать тест на 2+ недели
Selection bias	Тест только на mobile → результат не переносится на desktop	Рандомизация по всему трафику

	Frequentist	Bayesian
Результат	p-value + confidence interval	Probability of B > A (%)
Интерпретация	Сложная	Интуитивная
Sample size	Фиксированный, определяется заранее	Гибкий, можно останавливать раньше
Инструменты	Google Optimize (RIP), Optimizely	VWO, GrowthBook, Statsig

Рассчитайте sample size для A/B-теста: baseline CR = 3%, MDE = 15% relative, power = 80%
Определите duration при 1,000 visitors/day
Запустите тест (Google Optimize alternative: GrowthBook free tier)
После завершения: правильно ли интерпретировали результат? Была ли statistical power достаточной?