Back to archive
12.07Продуктовая аналитика и BI

AB-тестирование продуктовых фич: как проверять изменения без самообмана

TL;DR

  • Продуктовый AB-тест проверяет не "какой экран красивее", а влияет ли изменение на важную метрику без вреда для guardrails.
  • В тесте заранее фиксируются гипотеза, аудитория, unit of randomization, exposure event, primary metric, guardrails и дата анализа.
  • Нельзя останавливать тест только потому, что сегодня вариант B выглядит лучше.
  • Продуктовые тесты должны смотреть дальше клика: activation, retention, revenue, support, crash rate, refund, fraud.
  • Если трафика мало, лучше сделать качественное исследование, feature flag rollout или доработку воронки, чем запускать тест, который все равно ничего не докажет.

1. Что такое продуктовый AB-тест

AB-тест сравнивает две или больше версии опыта на сопоставимых группах пользователей. Контроль видит текущую версию, тестовая группа - изменение. Разница в метриках показывает, стоит ли раскатывать изменение дальше.

В продукте AB-тест отличается от рекламного сплит-теста. Здесь изменение может влиять на долгосрочное поведение: retention, повторные заказы, скорость приложения, support load, churn. Поэтому "клик вырос" - слабое доказательство, если через неделю пользователи хуже возвращаются.

2. Что фиксировать до запуска

Хороший test brief помещается на одну страницу.

ПолеПример
ГипотезаЕсли показать шаблон onboarding, больше команд завершит первый workflow
АудиторияНовые workspace в web app
Randomization unitWorkspace, не отдельный пользователь
Exposure eventonboarding_template_seen
Primary metricfirst_workflow_completed_within_24h
GuardrailsError rate, support tickets, D7 retention
Minimum runtime14 дней или полный недельный цикл
Decision ruleShip, если primary растет и guardrails не падают

Без такого brief команда почти всегда спорит постфактум: одни смотрят клики, другие revenue, третьи выбирают красивый сегмент, где результат "точно победил".

3. Unit of randomization

Нужно решить, кого вы рандомизируете.

UnitКогда подходитРиск
UserИндивидуальный продуктОдин человек на нескольких устройствах
DeviceMobile/app тесты без loginТрудно связать с revenue
Account/workspaceB2B SaaSВнутри аккаунта люди влияют друг на друга
Order/sessionCheckout UXПользователь может попасть в разные варианты

Для B2B SaaS часто нужно рандомизировать workspace, а не пользователя. Иначе один участник команды увидит новый onboarding, второй старый, а их поведение смешается.

4. Exposure важнее assignment

Пользователь может попасть в тестовую группу, но не увидеть изменение. Поэтому важно отличать assignment от exposure.

Если считать всех assigned users, результат размывается. Особенно это заметно в продуктах, где новая фича находится глубоко: например, виджет рекомендаций видят только те, кто дошел до карточки товара.

5. Primary metric и guardrails

Один тест должен иметь одну основную метрику. Остальные метрики помогают понять вред и контекст.

ТипПримеры
PrimaryActivation, checkout conversion, first value, paid conversion
SecondaryTime to convert, feature adoption, repeat action
GuardrailCrash-free users, refunds, support tickets, latency, unsubscribe
DiagnosticSegment split, path after drop-off, device/app version

Если тест улучшает primary metric на 4%, но увеличивает refund rate на 20%, это не победа. Это перенос проблемы в другое место P&L.

6. Статистика без магии

Команде не обязательно превращаться в кафедру статистики, но базовые правила нужны:

  • заранее оценить sample size;
  • не останавливать тест каждый день по настроению;
  • не менять primary metric во время теста;
  • проверять sample ratio mismatch;
  • учитывать недельные циклы;
  • отдельно смотреть новые и returning users, если опыт для них разный.

Sample Ratio Mismatch, или SRM, возникает, когда группы распределились не так, как ожидалось. Например, план был 50/50, а вышло 62/38. Это может быть признаком бага в assignment, фильтрах, eligibility или логировании. Такой тест нельзя спокойно интерпретировать.

7. Продуктовые тесты и долгий эффект

Некоторые фичи выигрывают быстро и проигрывают позже.

Быстрый выигрышДолгий риск
Агрессивный paywallChurn после trial
Скидка в checkoutПадение margin
Больше push-уведомленийUnsubscribe и uninstall
Упрощенный KYCFraud и compliance
АвтоподпискаRefunds и жалобы

Поэтому для серьезных продуктовых изменений полезно смотреть не только same-day conversion, но и D7/D30 retention, revenue retention, support и качество заказов.

8. Rollout

AB-тест не обязан сразу запускаться на 50% аудитории. Часто безопаснее идти ступенями.

Порядок особенно важен для платежей, KYC, onboarding, рекомендаций, pricing и любых фич, где ошибка стоит денег или доверия.

9. Локальный контекст СНГ/РК

На локальном рынке часто встречается аргумент "у конкурента так сделано". Это не эксперимент. У конкурента другая аудитория, бренд, платежные привычки, доставка, support и технический долг.

Практичные тесты для РК:

ПродуктЧто тестироватьGuardrail
E-commerceПорядок payment methods: Kaspi, card, installmentPaid orders, payment errors
EdTechПервый урок до заявки или после заявкиTrial quality, refunds
FintechKYC flow and document hintsApproval rate, fraud, support
DeliveryAddress flow and delivery fee displayCompleted orders, cancellation
B2B SaaSTemplate-based onboardingActivation, support tickets

Маленький рынок не отменяет эксперименты, но заставляет честнее относиться к мощности теста. Если аудитории мало, лучше выбрать крупное изменение с большим ожидаемым эффектом, а мелкие UI-споры решать через usability research.

10. Ошибки

ОшибкаПоследствие
Нет заранее записанной гипотезыПосле теста выбирают удобную интерпретацию
Меняют primary metric в процессеРезультат превращается в подгонку
Смотрят только кликиМожно ухудшить retention или revenue
Нет guardrailsРост покупается качеством
Не проверяют SRMБаг assignment выглядит как эффект фичи
Слишком рано останавливают тестСлучайный шум принимается за победу
Тестируют много изменений сразуНепонятно, что сработало

11. Практический чеклист

  • Есть test brief.
  • Определены eligibility и randomization unit.
  • Настроен exposure event.
  • Выбрана одна primary metric.
  • Добавлены guardrails.
  • Понятен minimum runtime или sample size.
  • Проверяется sample ratio mismatch.
  • Результат анализируется по ключевым сегментам.
  • После rollout есть мониторинг.

12. Видео

A/B ТЕСТИРОВАНИЕ простыми словами. Как провести АБ тест правильно?

13. Главный совет

AB-тест нужен не для того, чтобы доказать правоту команды. Он нужен, чтобы дешево узнать, где команда ошибается. Самый полезный тест часто тот, который не дал раскатить красивую, но вредную фичу.

Sources / Notes