Back to archive
17.08Искусственный интеллект в маркетинге

Предиктивная аналитика и ML для СМО

TL;DR

  • Предиктивная аналитика отвечает не на вопрос "что случилось?", а на вопрос "что, вероятно, случится дальше и что мы с этим сделаем?".
  • Самые практичные кейсы для маркетинга: churn risk, LTV prediction, lead scoring, propensity to buy, next best action, demand forecast, uplift modeling.
  • ML-проект начинается не с модели, а с события, которое дорого для бизнеса: уход клиента, плохой лид, ненужная скидка, дефицит товара, missed renewal.
  • Главные риски: грязные данные, data leakage, маленькая выборка, неправильная метрика, отсутствие действия после прогноза.
  • СМО не обязан быть data scientist, но обязан понимать, какой бизнес-вывод можно и нельзя делать из модели.

1. Зачем маркетингу прогноз

Обычная аналитика смотрит назад: сколько было лидов, продаж, повторных покупок, оттока. Это полезно, но часто поздно. Если клиент уже ушел, возвращать его дороже. Если бюджет уже сгорел на слабые лиды, отчет не вернет деньги. Если спрос на товар вырос неожиданно, склад уже пустой.

Предиктивная аналитика пытается увидеть вероятность будущего события:

  • этот клиент может уйти;
  • этот лид вероятнее купит;
  • этому клиенту не нужна скидка, он купит сам;
  • этому сегменту нужен звонок, а не email;
  • спрос на категорию вырастет через две недели;
  • новая кампания привлечет много дешевых, но слабых лидов;
  • этот клиент может принести высокий LTV.

Прогноз ценен только если у команды есть действие. Если модель говорит "клиент в зоне риска", но CRM не запускает retention-сценарий, пользы мало. Если модель оценивает lead score, но sales все равно звонят всем подряд, проект не влияет на P&L.

Предиктивная модель маркетинга: исторические данные, признаки, прогноз, действие, результат и обучение модели
Предиктивная модель маркетинга: исторические данные, признаки, прогноз, действие, результат и обучение модели

2. Основные кейсы

КейсЧто прогнозируемЧто делаем
Churn predictionвероятность ухода клиентаretention offer, звонок, onboarding, content
LTV predictionбудущая ценность клиентавыше CAC limit, отдельный сервис, персональные предложения
Lead scoringвероятность сделкиприоритет sales, разные сценарии nurture
Propensity to buyвероятность покупки товара/услугиnext offer, recommendation, email trigger
Next best actionлучшее следующее действиезвонок, скидка, контент, demo, пауза
Demand forecastingбудущий спросбюджет, закупки, акции, контент-календарь
Uplift modelingкому скидка реально меняет поведениене раздавать скидки тем, кто купил бы сам
Creative fatigue forecastкогда креатив начнет выгоратьзаранее подготовить замену

Для СМО особенно важен uplift. Простая propensity-модель может сказать: "этот клиент с высокой вероятностью купит". Команда дает скидку и радуется продаже. Но возможно, клиент купил бы без скидки. Uplift-подход ищет тех, чье поведение действительно меняется из-за воздействия. Это защищает маржу.

3. Как устроена модель простыми словами

Модель учится на прошлом. Ей дают строки данных: клиент, источник, покупки, активность, письма, визиты, звонки, город, продукт, скидки, статусы. В прошлом для части клиентов известен результат: купил, не купил, ушел, продлил, вернул товар. Модель ищет паттерны между признаками и результатом. Потом для новых клиентов она оценивает вероятность.

Ключевые понятия:

  • Label. Событие, которое хотим предсказать: churn in 30 days, sale in 14 days, high LTV.
  • Features. Признаки: recency, frequency, monetary value, source, product, email opens, support tickets, visits.
  • Training set. Исторические данные, на которых модель учится.
  • Validation/test set. Данные, на которых проверяем, не выучила ли модель шум.
  • Prediction. Вероятность события.
  • Threshold. Порог, после которого запускается действие.
  • Feedback loop. Результат действия возвращается в данные.

СМО не обязан выбирать алгоритм. Но он обязан проверить label и действие. Если label плохой, модель будет оптимизировать не то. Например, "лид оставил заявку" не равно "лид купил". Если модель учится на заявках, она может покупать еще больше дешевых слабых лидов.

4. Данные, без которых модель слабая

Для предиктивной аналитики нужны не идеальные big data, а достаточно чистые события.

Минимальный набор:

  • customer_id или lead_id;
  • дата первого касания;
  • источник и кампания;
  • ключевые события воронки;
  • статусы CRM;
  • покупки, суммы, возвраты;
  • коммуникации: email, push, звонки, мессенджеры;
  • продукт/категория;
  • география;
  • lost reasons;
  • дата и причина оттока, если речь про churn.

Самая частая проблема - data leakage. Это когда модель случайно получает признак, который был известен только после события. Например, вы прогнозируете покупку, но в данных есть поле "дата оплаты" или статус, который появился после сделки. Модель кажется очень точной, но в реальности бесполезна.

Вторая проблема - маленькая выборка. Если у вас 40 продаж, сложная модель не нужна. Начните с правил, RFM, простой регрессии или ручного scoring. ML не должен быть сложнее бизнес-задачи.

5. Как оценивать модель

Не смотрите только на "accuracy". В маркетинге классы часто несбалансированы. Если 95% лидов не покупают, модель может всегда говорить "не купит" и иметь 95% accuracy, но не приносить денег.

Полезные вопросы:

  • сколько хороших лидов модель находит;
  • сколько плохих лидов ошибочно считает хорошими;
  • что происходит с sales workload;
  • растет ли conversion to meeting;
  • улучшается ли CAC/payback;
  • сколько маржи съели скидки;
  • можно ли объяснить прогноз;
  • как часто модель нужно обновлять;
  • не дискриминирует ли модель группы людей;
  • есть ли действие для каждого score band.

Для руководителя модель должна переводиться в операционную таблицу:

ScoreЧто значитДействие
80-100горячий лид / высокий риск / высокий LTVприоритет, персональный контакт
50-79средний потенциалnurture, content, email/push
20-49слабый сигналнедорогая автоматизация
0-19низкий приоритетне тратить дорогой ресурс

6. Внедрение без большого data science отдела

Начните с простого:

  1. Выберите одно дорогое событие: churn, low-quality lead, missed repeat, ненужная скидка.
  2. Опишите действие, которое сможете выполнить.
  3. Соберите данные за 6-12 месяцев.
  4. Сделайте baseline без ML: простые правила или RFM.
  5. Проверьте, дает ли ML лучшее решение, чем baseline.
  6. Запустите тест на части базы.
  7. Измерьте не точность модели, а деньги: conversion, retention, margin, workload, CAC.

Иногда лучший первый шаг - не ML, а lead scoring rules. Например, +20 баллов за бюджет, +15 за нужный город, +10 за повторный визит, -30 за неправильную категорию. Если эта простая модель уже улучшила работу sales, потом можно строить ML.

7. Локальный контекст РК и СНГ

В локальных компаниях часто есть хорошие бизнес-данные, но они не готовы для ML: статусы заполняются нерегулярно, lost reasons пишутся свободным текстом, WhatsApp не связан с CRM, звонки не размечены, разные филиалы используют разные названия каналов.

Практичный путь:

  • сначала стандартизировать CRM-статусы;
  • сделать обязательные lost reasons;
  • связать звонки и мессенджеры с lead_id;
  • разделить лиды, встречи, сделки и оплату;
  • добавить язык и город;
  • фиксировать скидки и промокоды;
  • проводить monthly data quality review.

Только после этого прогноз начинает работать. ML не лечит дисциплину продаж и маркетинга, он ее усиливает.

8. Практическое задание

Выберите один прогноз:

  • вероятность повторной покупки;
  • риск оттока;
  • вероятность сделки;
  • высокий LTV;
  • вероятность реакции на скидку.

Опишите:

  1. Label: какое событие предсказываем и в какой срок.
  2. Features: какие признаки доступны до события.
  3. Action: что сделаем при высоком score.
  4. Cost of action: сколько стоит действие.
  5. Metric: как поймем, что прогноз помог.
  6. Baseline: с чем сравниваем.
  7. Risk: где модель может ошибиться.

Если не можете описать action, проект рано запускать. Прогноз без действия - дорогой отчет о будущем.

9. Видео

  • Курс Google: Machine Learning Crash Course - базовая визуальная база по ML, метрикам и ошибкам.
  • Видео OpenAI Academy: ChatGPT for Data Analysis - хороший старт для прототипирования анализа до полноценной модели.

Что почитать

Главный совет

Не начинайте с "нам нужен ML". Начните с "какое будущее событие дорого нам обходится и какое действие мы готовы запустить заранее?". Тогда модель станет инструментом управления, а не красивой игрушкой в презентации.