← Back to Academia

12.07 - A/B-тесты - статистические основы

A/B-тест без статистики - это гадание. p-value, sample size, MDE - не академическая теория, а инструменты принятия решений.

#intermediate #advanced #block-12


Навигация

12.06 - Mixpanel - обзор и сравнение | → 12.08 - A-B-тесты - дизайн экспериментов


Основные понятия

Hypothesis

H₀ (null): Вариант B не отличается от A (нет эффекта) H₁ (alternative): Вариант B отличается от A (есть эффект)

p-value

p-value - вероятность получить такой же (или более экстремальный) результат, если H₀ верна.

  • p < 0.05 → «статистически значимо» (стандарт)
  • p < 0.01 → «очень значимо»
  • p > 0.05 → «нет значимого отличия»

⚠️ p-value ≠ вероятность, что B лучше A. Это вероятность данных при условии, что разницы нет.

Sample Size (размер выборки)

Зависит от:

  1. Baseline conversion rate (текущая конверсия)
  2. MDE (Minimum Detectable Effect) - минимальное изменение, которое хотите обнаружить
  3. Statistical power (обычно 80%)
  4. Significance level (обычно 95%, α = 0.05)
Baseline CRMDERequired sample (per variant)
2%20% relative (+0.4pp)~25,000
2%10% relative (+0.2pp)~100,000
5%20% relative (+1pp)~10,000
5%10% relative (+0.5pp)~40,000
10%20% relative (+2pp)~4,000

Калькулятор: Evan Miller A/B Test Calculator

Duration

Duration = Required Sample Size / Daily Traffic per Variant

Пример: 25,000 / 500 visitors/day = 50 дней → слишком долго? Увеличьте MDE или трафик.


Частые ошибки

ОшибкаПроблемаРешение
PeekingСмотреть результаты каждый день → ложные выводыОпределить sample size заранее, ждать до конца
Stopping early«Уже значимо на 3 день!» → p-value inflatedМинимум 1 полный бизнес-цикл (7 дней)
Multiple testingТестируете 10 метрик → одна будет «значимой» случайноBonferroni correction: α / n
Novelty effectНовый дизайн «лучше» просто потому что новыйЗапускать тест на 2+ недели
Selection biasТест только на mobile → результат не переносится на desktopРандомизация по всему трафику

Байесовский vs Фреквентистский подход

FrequentistBayesian
Результатp-value + confidence intervalProbability of B > A (%)
ИнтерпретацияСложнаяИнтуитивная
Sample sizeФиксированный, определяется заранееГибкий, можно останавливать раньше
ИнструментыGoogle Optimize (RIP), OptimizelyVWO, GrowthBook, Statsig

🔧 Практика

  1. Рассчитайте sample size для A/B-теста: baseline CR = 3%, MDE = 15% relative, power = 80%
  2. Определите duration при 1,000 visitors/day
  3. Запустите тест (Google Optimize alternative: GrowthBook free tier)
  4. После завершения: правильно ли интерпретировали результат? Была ли statistical power достаточной?

Связанные заметки