LTV: 5 моделей расчёта: простая, когортная, predictive, BG/NBD, Pareto/NBD

Пожизненная ценность клиента (Customer Lifetime Value, LTV или CLV) — это метрика, которая определяет, сколько прибыли принесет клиент за все время работы с компанией. От точности расчета LTV зависит окупаемость маркетинга, стратегия удержания и общая юнит-экономика бизнеса.

В этой статье мы разберем 5 моделей расчета LTV: от базовой математики для экспресс-оценки до продвинутых вероятностных моделей (BG/NBD, Pareto/NBD), которые используются в машинном обучении и аналитике данных уровня Enterprise.

Глава 1. Почему простая модель LTV часто врет? (Простая модель)

Простая модель LTV (Исторический ARPU или Средняя прибыль на пользователя) — это самый распространенный и одновременно самый опасный способ расчета.

Формула выглядит так: LTV = Средний чек (AOV) × Среднее число покупок (Frequency) × Маржинальность (Gross Margin) Или еще проще: LTV = Средний доход с клиента за период (ARPU) × Среднее время жизни клиента (Lifetime)

Проблемы простой модели:

Предположение о линейности: Модель предполагает, что клиент будет покупать с той же частотой и тем же средним чеком всегда. В реальности поведение меняется: новички покупают иначе, чем ветераны бренда.
Игнорирование оттока (Churn): Использование среднего времени жизни (1 / Churn Rate) работает только для бизнесов с контрактной моделью (подписки, SaaS). В e-commerce клиент не «отменяет подписку», он просто перестает покупать. Простая модель не умеет предсказывать, ушел клиент или просто сделал паузу.
Усреднение температуры по больнице: Смешивание “китов” (крупных покупателей) и случайных прохожих искажает картину.

Когда использовать: Только для быстрых прикидок «на салфетке» или на самом старте бизнеса, когда исторических данных еще нет.

Глава 2. Когортная модель (Historical LTV)

Когортный анализ решает проблему усреднения. Мы группируем пользователей по времени их первой покупки (когорте) и отслеживаем, как эта группа ведет себя с течением времени.

Как считается:

Пользователи разбиваются на когорты (например, все, кто совершил первую покупку в январе 2023 года).
Считается выручка или маржа, принесенная этой когортой в каждый последующий месяц (Месяц 0, Месяц 1, Месяц 2 и т.д.).
Рассчитывается кумулятивный (накопленный) ARPU на каждого клиента в когорте.

Преимущества:

Показывает реальную динамику окупаемости (Payback Period). Вы видите, на какой месяц клиент “отбивает” затраты на привлечение (CAC).
Позволяет сравнивать качество разных когорт. Например, клиенты, пришедшие с новогодней распродажи, могут иметь совершенно другой LTV, чем те, кто пришел в обычный сезон.

Недостатки:

Это взгляд в прошлое (Historical). Вы не можете точно предсказать LTV новой когорты, пока не пройдет достаточно времени.
Чем старше когорта, тем меньше в ней остается активных пользователей (выживаемость падает), из-за чего данные на поздних этапах (хвост LTV) могут быть шумными.

Глава 3. Предиктивные модели машинного обучения (Predictive ML)

Когда исторического LTV становится недостаточно для оперативного управления ставками в рекламе, бизнес переходит к Predictive LTV. Вместо того чтобы ждать 6-12 месяцев для оценки качества когорты, мы предсказываем будущий LTV (например, на 365 дней) уже в первые 7-14 дней жизни клиента.

Как это работает:

Используются алгоритмы машинного обучения (Random Forest, Gradient Boosting — XGBoost, LightGBM). В модель подаются фичи (признаки) пользователя:

Демография и гео.
Источник трафика и кампания.
Поведение на сайте в первые дни (число сессий, просмотры страниц, добавления в корзину).
Транзакционные данные первых покупок (размер скидки, метод оплаты).

Модель находит паттерны и выдает прогноз: с вероятностью Y этот клиент принесет X рублей в течение года.

Преимущества:

Скорость принятия решений: можно отключать неэффективные рекламные кампании до того, как они сожгут бюджет.
Персонализация: можно таргетировать скидки и retention-кампании на тех, кто имеет высокий потенциальный LTV.

Недостатки:

Требует большого объема качественных исторических данных (big data).
Нужна инфраструктура и Data Science компетенции. Модели могут “протухать” при изменении рыночных условий.

Глава 4. Модель BG/NBD (Beta Geometric / Negative Binomial Distribution)

В бизнесе без подписки (неконтрактная модель, Non-Contractual) главная проблема — понять, жив ли еще клиент. Вы не знаете, он просто долго думает перед следующей покупкой, или уже ушел к конкурентам.

Здесь на сцену выходят так называемые модели класса «Buy Till You Die» (BTYD). Самая популярная из них — BG/NBD.

Суть модели:

Она разбивает поведение клиента на два независимых процесса (распределения вероятностей):

Процесс покупок (NBD - Negative Binomial Distribution): Пока клиент “жив” (активен), частота его покупок описывается распределением Пуассона. У каждого клиента своя интенсивность покупок.
Процесс оттока (BG - Beta Geometric): После каждой совершенной покупки есть некая вероятность p, что клиент «умрет» (навсегда прекратит покупать).

Модель анализирует историю покупок (Recency — время с первой до последней покупки, Frequency — количество повторных покупок, T — время с первой покупки до текущего момента) и высчитывает:

P(Alive): Вероятность того, что клиент прямо сейчас все еще активен.
Ожидаемое количество покупок в будущем периоде.

Для расчета денежной ценности этих будущих покупок BG/NBD обычно спаривают с Гамма-Гамма (Gamma-Gamma) субмоделью, которая предсказывает средний чек будущих транзакций.

Преимущества:

Математически элегантное решение проблемы оттока в e-commerce и ритейле.
Выдает вероятностные оценки на уровне каждого отдельного клиента.

Глава 5. Модель Pareto/NBD

Pareto/NBD — это предшественник и старший брат BG/NBD, также относящийся к семейству Buy Till You Die.

Отличие от BG/NBD:

Если в BG/NBD клиент может “умереть” только сразу после совершения покупки (что математически проще считать), то Pareto/NBD предполагает, что отток может произойти в любой случайный момент времени (описывается экспоненциальным распределением Парето).

Преимущества:

Теоретически более реалистичное предположение о природе оттока: клиент может решить больше не возвращаться к вам в любой день, а не только в момент транзакции.
Показывает отличную точность на больших горизонтах планирования.

Недостатки:

Значительно сложнее в вычислениях. Оптимизация параметров для Pareto/NBD может занимать много времени и требовать больших ресурсов. Именно из-за вычислительной сложности была придумана упрощенная модель BG/NBD, которая дает почти такие же точные результаты, но считается в разы быстрее.

Резюме: какую модель выбрать?

Простая модель — если вы только открылись и у вас нет данных.
Когортная модель — золотой стандарт для малого и среднего бизнеса. Обязательна к внедрению в любой компании старше 6-12 месяцев.
Predictive ML — если у вас много данных, большой трафик и нужно оптимизировать рекламу в реальном времени.
BG/NBD и Pareto/NBD — для крупного e-commerce и ритейла, когда необходимо точно классифицировать базу, понимать вероятность оттока каждого юзера и строить продвинутые CRM-кампании.