Multi-armed bandits: алгоритмическая оптимизация вместо A/B

В мире продуктовой аналитики и маркетинга классическое A/B-тестирование долгое время оставалось золотым стандартом. Мы делим трафик пополам, ждем достижения статистической значимости и выбираем победителя. Однако этот подход имеет существенный недостаток: пока идет тест, мы сознательно отправляем часть пользователей на менее эффективный вариант, теряя конверсии и деньги.

Многорукие бандиты (Multi-armed bandits, MAB) — это алгоритмический подход к тестированию, который решает эту проблему. Вместо того чтобы ждать окончания теста, MAB динамически перераспределяет трафик в реальном времени, отдавая предпочтение тем вариантам, которые показывают лучшие результаты прямо сейчас.

Глава 1. Почему классический A/B-тест устаревает?

A/B-тестирование (или RCT — Randomized Controlled Trial) пришло к нам из медицины, где строгость эксперимента важнее краткосрочной выгоды. В бизнесе же цель тестирования — не просто найти истину, а максимизировать прибыль.

Основные проблемы A/B-тестов:

“Налог на тестирование” (Regret). Если вариант B хуже варианта A, то во время теста 50% пользователей получают худший опыт. Чем дольше идет тест, тем больше недополученной прибыли (regret).
Проблема “Холодного старта” и коротких окон. Что если вы тестируете заголовки для новости, которая живет всего сутки? Пока A/B-тест соберет данные для статзначимости, новость уже перестанет быть актуальной.
Статичность. Классический A/B-тест не учитывает, что эффективность вариантов может меняться со временем, например, в зависимости от дня недели или сезона.

Многорукие бандиты предлагают парадигму непрерывного обучения и оптимизации. Они не просто “тестируют”, они сразу “зарабатывают”.

Глава 2. Дилемма Exploration vs Exploitation

В основе алгоритмов MAB лежит фундаментальная проблема машинного обучения — компромисс между исследованием и использованием (Exploration vs Exploitation trade-off).

Название “многорукие бандиты” происходит от игровых автоматов (“одноруких бандитов”) в казино. Представьте, что перед вами несколько автоматов, каждый из которых выдает выигрыш с разной, но неизвестной вам вероятностью. Ваша цель — максимизировать выигрыш за ограниченное количество попыток.

У вас есть два пути:

Exploitation (Использование): Дергать за ручку автомата, который до сих пор приносил больше всего денег. Вы максимизируете текущую выгоду на основе известных данных.
Exploration (Исследование): Пробовать другие автоматы. Возможно, среди них есть тот, который дает выигрыш еще чаще, но вы об этом пока не знаете. Исследование требует жертв в краткосрочной перспективе ради потенциальной долгосрочной выгоды.

Алгоритмы MAB математически балансируют эти две стратегии.

Глава 3. Алгоритм Epsilon-Greedy (ε-greedy)

Самый простой и интуитивно понятный алгоритм балансировки.

Как он работает: Мы задаем параметр ε (эпсилон), обычно это небольшое число, например 0.1 (10%).

С вероятностью 1 - ε (90%) алгоритм выбирает лучший на данный момент вариант (Exploitation).
С вероятностью ε (10%) алгоритм выбирает случайный вариант, включая текущего лидера (Exploration).

Плюсы: Легко реализовать и понять. Он гарантирует, что система никогда не перестанет исследовать новые или изменившиеся условия.

Минусы: Даже когда мы абсолютно уверены, какой вариант хуже всех, алгоритм все равно будет отправлять на него часть трафика (те самые 10% в случайном поиске). Это значит, что regret (потерянная выгода) будет продолжать линейно расти со временем.

Глава 4. Томпсоновское сэмплирование (Thompson Sampling)

Это более продвинутый и элегантный байесовский подход, который является стандартом индустрии для большинства практических задач.

Вместо того чтобы просто считать среднюю конверсию каждого варианта, Thompson Sampling строит распределение вероятностей для истинной конверсии каждого варианта (обычно используя Бета-распределение).

Как он работает:

Для каждого варианта алгоритм имеет распределение вероятностей его успешности. Изначально (пока данных нет) эти распределения широкие (высокая неопределенность).
На каждом шаге алгоритм генерирует случайное число из распределения каждого варианта.
Пользователю показывается вариант, чье сгенерированное число оказалось наибольшим.
После реакции пользователя (клик/покупка или их отсутствие) распределение вероятностей выбранного варианта обновляется.

Почему это круто? По мере накопления данных распределение лучшего варианта становится узким и высоким, и вероятность того, что алгоритм выберет именно его, стремится к 100%. В отличие от Epsilon-Greedy, Thompson Sampling плавно сводит исследование к нулю по мере роста уверенности. Это минимизирует “налог на тестирование” до абсолютного минимума.

Глава 5. Непрерывная оптимизация в E-commerce

В электронной коммерции классические A/B-тесты часто не поспевают за динамикой рынка. Цены конкурентов, тренды, сезоны, акции меняются слишком быстро.

Многорукие бандиты открывают дверь к непрерывной оптимизации (Continuous Optimization). Вы можете запустить MAB-алгоритм на главной странице интернет-магазина (например, для ротации баннеров или товарных рекомендаций) и оставить его работать навсегда.

Примеры применения в E-commerce:

Динамическое ценообразование: Тестирование разных ценовых точек для максимизации прибыли.
Персонализация: Контекстные бандиты (Contextual Bandits) идут еще дальше, учитывая профиль пользователя (локация, история покупок). Для каждого сегмента аудитории алгоритм “дергает” за разные ручки.
Оптимизация рекламных кампаний: Системы вроде Google Ads и Facebook Ads используют принципы MAB для динамического перераспределения бюджета в пользу лучших креативов и аудиторий в реальном времени.

Итог MAB не заменяют A/B-тесты полностью. Если вам нужно принять фундаментальное решение (“Меняем ли мы полностью архитектуру чекаута?”), строгий статистический A/B-тест по-прежнему необходим. Но для операционной оптимизации метрик, ротации контента и максимизации прибыли “здесь и сейчас” — многорукие бандиты являются гораздо более эффективным инструментом.

Поделиться статьей:

Telegram ВКонтакте Twitter