A/B-тест без статистики - это гадание. p-value, sample size, MDE - не академическая теория, а инструменты принятия решений.
#intermediate #advanced #block-12
Навигация
← 12.06 - Mixpanel - обзор и сравнение | → 12.08 - A-B-тесты - дизайн экспериментов
Основные понятия
Hypothesis
H₀ (null): Вариант B не отличается от A (нет эффекта)
H₁ (alternative): Вариант B отличается от A (есть эффект)
p-value
p-value - вероятность получить такой же (или более экстремальный) результат, если H₀ верна.
- p < 0.05 → «статистически значимо» (стандарт)
- p < 0.01 → «очень значимо»
- p > 0.05 → «нет значимого отличия»
⚠️ p-value ≠ вероятность, что B лучше A. Это вероятность данных при условии, что разницы нет.
Sample Size (размер выборки)
Зависит от:
- Baseline conversion rate (текущая конверсия)
- MDE (Minimum Detectable Effect) - минимальное изменение, которое хотите обнаружить
- Statistical power (обычно 80%)
- Significance level (обычно 95%, α = 0.05)
| Baseline CR | MDE | Required sample (per variant) |
|---|---|---|
| 2% | 20% relative (+0.4pp) | ~25,000 |
| 2% | 10% relative (+0.2pp) | ~100,000 |
| 5% | 20% relative (+1pp) | ~10,000 |
| 5% | 10% relative (+0.5pp) | ~40,000 |
| 10% | 20% relative (+2pp) | ~4,000 |
Калькулятор: Evan Miller A/B Test Calculator
Duration
Duration = Required Sample Size / Daily Traffic per Variant
Пример: 25,000 / 500 visitors/day = 50 дней → слишком долго? Увеличьте MDE или трафик.
Частые ошибки
| Ошибка | Проблема | Решение |
|---|---|---|
| Peeking | Смотреть результаты каждый день → ложные выводы | Определить sample size заранее, ждать до конца |
| Stopping early | «Уже значимо на 3 день!» → p-value inflated | Минимум 1 полный бизнес-цикл (7 дней) |
| Multiple testing | Тестируете 10 метрик → одна будет «значимой» случайно | Bonferroni correction: α / n |
| Novelty effect | Новый дизайн «лучше» просто потому что новый | Запускать тест на 2+ недели |
| Selection bias | Тест только на mobile → результат не переносится на desktop | Рандомизация по всему трафику |
Байесовский vs Фреквентистский подход
| Frequentist | Bayesian | |
|---|---|---|
| Результат | p-value + confidence interval | Probability of B > A (%) |
| Интерпретация | Сложная | Интуитивная |
| Sample size | Фиксированный, определяется заранее | Гибкий, можно останавливать раньше |
| Инструменты | Google Optimize (RIP), Optimizely | VWO, GrowthBook, Statsig |
🔧 Практика
- Рассчитайте sample size для A/B-теста: baseline CR = 3%, MDE = 15% relative, power = 80%
- Определите duration при 1,000 visitors/day
- Запустите тест (Google Optimize alternative: GrowthBook free tier)
- После завершения: правильно ли интерпретировали результат? Была ли statistical power достаточной?