TL;DR
- Предиктивная аналитика отвечает не на вопрос "что случилось?", а на вопрос "что, вероятно, случится дальше и что мы с этим сделаем?".
- Самые практичные кейсы для маркетинга: churn risk, LTV prediction, lead scoring, propensity to buy, next best action, demand forecast, uplift modeling.
- ML-проект начинается не с модели, а с события, которое дорого для бизнеса: уход клиента, плохой лид, ненужная скидка, дефицит товара, missed renewal.
- Главные риски: грязные данные, data leakage, маленькая выборка, неправильная метрика, отсутствие действия после прогноза.
- СМО не обязан быть data scientist, но обязан понимать, какой бизнес-вывод можно и нельзя делать из модели.
1. Зачем маркетингу прогноз
Обычная аналитика смотрит назад: сколько было лидов, продаж, повторных покупок, оттока. Это полезно, но часто поздно. Если клиент уже ушел, возвращать его дороже. Если бюджет уже сгорел на слабые лиды, отчет не вернет деньги. Если спрос на товар вырос неожиданно, склад уже пустой.
Предиктивная аналитика пытается увидеть вероятность будущего события:
- этот клиент может уйти;
- этот лид вероятнее купит;
- этому клиенту не нужна скидка, он купит сам;
- этому сегменту нужен звонок, а не email;
- спрос на категорию вырастет через две недели;
- новая кампания привлечет много дешевых, но слабых лидов;
- этот клиент может принести высокий LTV.
Прогноз ценен только если у команды есть действие. Если модель говорит "клиент в зоне риска", но CRM не запускает retention-сценарий, пользы мало. Если модель оценивает lead score, но sales все равно звонят всем подряд, проект не влияет на P&L.

2. Основные кейсы
| Кейс | Что прогнозируем | Что делаем |
|---|---|---|
| Churn prediction | вероятность ухода клиента | retention offer, звонок, onboarding, content |
| LTV prediction | будущая ценность клиента | выше CAC limit, отдельный сервис, персональные предложения |
| Lead scoring | вероятность сделки | приоритет sales, разные сценарии nurture |
| Propensity to buy | вероятность покупки товара/услуги | next offer, recommendation, email trigger |
| Next best action | лучшее следующее действие | звонок, скидка, контент, demo, пауза |
| Demand forecasting | будущий спрос | бюджет, закупки, акции, контент-календарь |
| Uplift modeling | кому скидка реально меняет поведение | не раздавать скидки тем, кто купил бы сам |
| Creative fatigue forecast | когда креатив начнет выгорать | заранее подготовить замену |
Для СМО особенно важен uplift. Простая propensity-модель может сказать: "этот клиент с высокой вероятностью купит". Команда дает скидку и радуется продаже. Но возможно, клиент купил бы без скидки. Uplift-подход ищет тех, чье поведение действительно меняется из-за воздействия. Это защищает маржу.
3. Как устроена модель простыми словами
Модель учится на прошлом. Ей дают строки данных: клиент, источник, покупки, активность, письма, визиты, звонки, город, продукт, скидки, статусы. В прошлом для части клиентов известен результат: купил, не купил, ушел, продлил, вернул товар. Модель ищет паттерны между признаками и результатом. Потом для новых клиентов она оценивает вероятность.
Ключевые понятия:
- Label. Событие, которое хотим предсказать: churn in 30 days, sale in 14 days, high LTV.
- Features. Признаки: recency, frequency, monetary value, source, product, email opens, support tickets, visits.
- Training set. Исторические данные, на которых модель учится.
- Validation/test set. Данные, на которых проверяем, не выучила ли модель шум.
- Prediction. Вероятность события.
- Threshold. Порог, после которого запускается действие.
- Feedback loop. Результат действия возвращается в данные.
СМО не обязан выбирать алгоритм. Но он обязан проверить label и действие. Если label плохой, модель будет оптимизировать не то. Например, "лид оставил заявку" не равно "лид купил". Если модель учится на заявках, она может покупать еще больше дешевых слабых лидов.
4. Данные, без которых модель слабая
Для предиктивной аналитики нужны не идеальные big data, а достаточно чистые события.
Минимальный набор:
- customer_id или lead_id;
- дата первого касания;
- источник и кампания;
- ключевые события воронки;
- статусы CRM;
- покупки, суммы, возвраты;
- коммуникации: email, push, звонки, мессенджеры;
- продукт/категория;
- география;
- lost reasons;
- дата и причина оттока, если речь про churn.
Самая частая проблема - data leakage. Это когда модель случайно получает признак, который был известен только после события. Например, вы прогнозируете покупку, но в данных есть поле "дата оплаты" или статус, который появился после сделки. Модель кажется очень точной, но в реальности бесполезна.
Вторая проблема - маленькая выборка. Если у вас 40 продаж, сложная модель не нужна. Начните с правил, RFM, простой регрессии или ручного scoring. ML не должен быть сложнее бизнес-задачи.
5. Как оценивать модель
Не смотрите только на "accuracy". В маркетинге классы часто несбалансированы. Если 95% лидов не покупают, модель может всегда говорить "не купит" и иметь 95% accuracy, но не приносить денег.
Полезные вопросы:
- сколько хороших лидов модель находит;
- сколько плохих лидов ошибочно считает хорошими;
- что происходит с sales workload;
- растет ли conversion to meeting;
- улучшается ли CAC/payback;
- сколько маржи съели скидки;
- можно ли объяснить прогноз;
- как часто модель нужно обновлять;
- не дискриминирует ли модель группы людей;
- есть ли действие для каждого score band.
Для руководителя модель должна переводиться в операционную таблицу:
| Score | Что значит | Действие |
|---|---|---|
| 80-100 | горячий лид / высокий риск / высокий LTV | приоритет, персональный контакт |
| 50-79 | средний потенциал | nurture, content, email/push |
| 20-49 | слабый сигнал | недорогая автоматизация |
| 0-19 | низкий приоритет | не тратить дорогой ресурс |
6. Внедрение без большого data science отдела
Начните с простого:
- Выберите одно дорогое событие: churn, low-quality lead, missed repeat, ненужная скидка.
- Опишите действие, которое сможете выполнить.
- Соберите данные за 6-12 месяцев.
- Сделайте baseline без ML: простые правила или RFM.
- Проверьте, дает ли ML лучшее решение, чем baseline.
- Запустите тест на части базы.
- Измерьте не точность модели, а деньги: conversion, retention, margin, workload, CAC.
Иногда лучший первый шаг - не ML, а lead scoring rules. Например, +20 баллов за бюджет, +15 за нужный город, +10 за повторный визит, -30 за неправильную категорию. Если эта простая модель уже улучшила работу sales, потом можно строить ML.
7. Локальный контекст РК и СНГ
В локальных компаниях часто есть хорошие бизнес-данные, но они не готовы для ML: статусы заполняются нерегулярно, lost reasons пишутся свободным текстом, WhatsApp не связан с CRM, звонки не размечены, разные филиалы используют разные названия каналов.
Практичный путь:
- сначала стандартизировать CRM-статусы;
- сделать обязательные lost reasons;
- связать звонки и мессенджеры с lead_id;
- разделить лиды, встречи, сделки и оплату;
- добавить язык и город;
- фиксировать скидки и промокоды;
- проводить monthly data quality review.
Только после этого прогноз начинает работать. ML не лечит дисциплину продаж и маркетинга, он ее усиливает.
8. Практическое задание
Выберите один прогноз:
- вероятность повторной покупки;
- риск оттока;
- вероятность сделки;
- высокий LTV;
- вероятность реакции на скидку.
Опишите:
- Label: какое событие предсказываем и в какой срок.
- Features: какие признаки доступны до события.
- Action: что сделаем при высоком score.
- Cost of action: сколько стоит действие.
- Metric: как поймем, что прогноз помог.
- Baseline: с чем сравниваем.
- Risk: где модель может ошибиться.
Если не можете описать action, проект рано запускать. Прогноз без действия - дорогой отчет о будущем.
9. Видео
- Курс Google: Machine Learning Crash Course - базовая визуальная база по ML, метрикам и ошибкам.
- Видео OpenAI Academy: ChatGPT for Data Analysis - хороший старт для прототипирования анализа до полноценной модели.
Что почитать
- Google Machine Learning Crash Course
- Google Developers: Classification metrics
- Google Cloud: BigQuery ML introduction
- OpenAI API: Code Interpreter tool
Главный совет
Не начинайте с "нам нужен ML". Начните с "какое будущее событие дорого нам обходится и какое действие мы готовы запустить заранее?". Тогда модель станет инструментом управления, а не красивой игрушкой в презентации.