Lookalike Audiences (Похожие аудитории): мифы, алгоритмы и реальность

Lookalike (LAL) — это святой Грааль таргетированной рекламы 2016–2020 годов. В золотую эру Facebook Ads и Google Ads достаточно было загрузить список email-адресов своих клиентов, нажать кнопку “Создать 1% Lookalike”, и алгоритмы послушно находили вам тысячи новых покупателей с минимальной стоимостью привлечения (CPA).

Однако сегодня, в эпоху пострелизной политики iOS 14.5 (App Tracking Transparency), повсеместного отказа от сторонних файлов cookie (third-party cookies) и развития искусственного интеллекта, ландшафт изменился до неузнаваемости. Узкие 1% Lookalike-аудитории теряют свою эффективность, уступая место алгоритмическому широкому таргетингу (Broad Targeting) и автоматизированным кампаниям вроде Advantage+ Shopping Campaigns (Meta) и Performance Max (Google).

В этой энциклопедической статье мы детально разберем, как именно рекламные движки строят Lookalike-аудитории на уровне машинного обучения, почему произошел тектонический сдвиг в сторону Broad, и как правильно собирать исходные данные (Seed-аудитории), чтобы заставить алгоритмы работать на ваш бизнес, а не сжигать бюджет.

1. Анатомия алгоритма: как машинное обучение ищет “похожих”

Большинство маркетологов воспринимает создание Lookalike как магический черный ящик. Вы загружаете список покупателей (Seed Audience), а платформа возвращает список из миллионов людей, которые “похожи” на них. Но что означает слово “похожи” на языке математики и Data Science?

1.1. Многомерное векторное пространство (Vector Mapping)

Каждый пользователь экосистемы (будь то пользователь Instagram, Facebook, Google Search или YouTube) не существует для алгоритма в виде человека с именем и фамилией. Он существует в виде вектора (массива чисел) в гигантском многомерном пространстве.

Платформы собирают тысячи сигналов (Data Points) о каждом пользователе:

Демография и география: Возраст, пол, город, частота путешествий.
Поведенческие паттерны: Скорость скроллинга ленты, время задержки на видео (Dwell Time), склонность кликать по кнопкам “Купить” (а не просто лайкать).
Контекстуальные интересы: Какие страницы посещает, в каких группах состоит, какие поисковые запросы вводит.
Технические данные: Модель устройства (iPhone 15 Pro Max или бюджетный Android), оператор связи, тип подключения к интернету.
Транзакционные данные: История покупок через пиксели и Conversion API (CAPI), средний чек, частота покупок.

Если представить эти данные как координаты, то каждый пользователь — это точка в пространстве, где может быть 5 000, 10 000 или даже 50 000 измерений.

1.2. Кластеризация и центроид Seed-аудитории

Когда вы загружаете исходную базу (Seed Audience), например, список из 3 000 ваших лучших клиентов, алгоритм находит этих людей в своем многомерном пространстве.

Поиск пересечений (Match Rate): Система сопоставляет предоставленные вами данные (email, телефон, LTV, User ID) с собственными профилями пользователей. Обычно хороший Match Rate составляет 50-80%.
Определение центроида: Алгоритм вычисляет “центр масс” (центроид) для этой группы точек. Он анализирует, какие векторы (характеристики) объединяют эту группу людей и отличают ее от среднестатистического пользователя интернета.
Вычисление косинусного сходства (Cosine Similarity): Далее система начинает сканировать всех остальных пользователей в заданном регионе (например, в США или России). Используя метрики расстояния (чаще всего косинусное сходство или евклидово расстояние), алгоритм измеряет “дистанцию” от каждого пользователя до центроида вашей Seed-аудитории.

1.3. Формирование процентов (1% - 10%)

Проценты в Lookalike означают долю населения выбранного региона, которая наиболее близка к вашей Seed-аудитории.

1% LAL: Это 1% населения страны, чьи векторы находятся наиболее близко к вашей исходной базе. Это самые “похожие” люди. В США 1% LAL составляет примерно 2.8 миллиона человек.
5% LAL: Включает в себя топ 5% населения. Аудитория шире, охват больше, но математическое сходство (релевантность) начинает падать.
10% LAL: Максимально широкая похожая аудитория.

2. Искусство создания Seed-базы (Исходных данных)

Главное правило машинного обучения: Garbage In, Garbage Out (GIGO) — Мусор на входе, мусор на выходе. Качество вашей Lookalike-аудитории на 100% зависит от качества загруженной Seed-аудитории. Если вы загружаете “грязные” данные, алгоритм найдет людей, похожих на этот “мусор”.

2.1. Миф о количестве: Больше — не всегда лучше

Многие рекламодатели ошибочно полагают, что база из 500 000 посетителей сайта сработает лучше, чем список из 1 000 покупателей, потому что “алгоритму нужно больше данных”. Это фатальная ошибка.

Посетители сайта — это крайне разношерстная аудитория. Среди них есть случайные клики (боты, миссклики), отказники (bounced traffic), конкуренты, изучающие ваш сайт, и лишь небольшой процент реальных покупателей. Если вы сделаете LAL на основе всех посетителей, алгоритм выявит усредненные, “размытые” паттерны. Векторное облако будет слишком широким, и центроид окажется неинформативным.

2.2. Стратегия RFM: Top 20% LTV Customers

Лучшая Seed-аудитория — это люди, обладающие максимальной ценностью для бизнеса. Чтобы выделить их, используйте RFM-анализ (Recency, Frequency, Monetary).

Recency (Давность): Как давно клиент совершил последнюю покупку? Клиенты, купившие вчера, важнее тех, кто покупал 3 года назад (их поведенческие паттерны в соцсетях могли кардинально измениться).
Frequency (Частота): Как часто они покупают? Постоянные клиенты — это ядро бизнеса.
Monetary (Деньги/LTV): Сколько денег они принесли?

Идеальный Seed-список: «Клиенты, совершившие более 2 покупок за последние 180 дней, с общим чеком (LTV) выше $500». Такая аудитория дает алгоритму кристально четкий сигнал. Векторное облако получается очень плотным.

2.3. Value-Based Lookalikes (LAL на основе ценности)

В Meta и Google есть продвинутая функция — создание LAL с учетом LTV (Value-Based Lookalikes). Вы загружаете не просто список email-ов, а таблицу из двух колонок: Email и LTV Value (в денежном эквиваленте).

Вместо того чтобы рассматривать каждого пользователя в Seed-базе как равнозначную точку, алгоритм присваивает им веса. Клиент с LTV $1000 “притягивает” центроид в 10 раз сильнее, чем клиент с LTV $100. Это позволяет алгоритму находить не просто людей, похожих на ваших покупателей, а людей, похожих на ваших самых прибыльных покупателей.

Сравнительная таблица качества Seed-аудиторий

Тип Seed-аудитории	Качество сигнала	Размер базы	Склонность к конверсии	Риск “размытия” (Noise)
Top 20% по LTV (с учетом ценности)	⭐️⭐️⭐️⭐️⭐️ (Премиум)	Малый (1к - 5к)	Максимальная	Минимальный
Все покупатели (за 180 дней)	⭐️⭐️⭐️⭐️ (Высокое)	Средний	Высокая	Низкий
Добавили в корзину (Add to Cart)	⭐️⭐️⭐️ (Среднее)	Выше среднего	Средняя	Средний (много window-shoppers)
Все посетители сайта (All Traffic)	⭐️⭐️ (Низкое)	Большой	Низкая	Высокий (огромное количество шума)
Подписчики в Instagram / Facebook	⭐️ (Крайне низкое)	Большой	Минимальная	Критический (лайки не равны покупкам)

3. Смерть 1% Lookalike: Апокалипсис iOS 14.5 и потеря сигналов

До 2021 года создание 1% LAL от базы покупателей было гарантированной стратегией для масштабирования бизнеса (Scaling). Алгоритмы работали с хирургической точностью. Но затем случился релиз Apple iOS 14.5 с протоколом App Tracking Transparency (ATT).

3.1. Удар по IDFA и потеря трекинга

ATT заставил все приложения запрашивать у пользователей явное согласие на отслеживание их действий в других приложениях и на сайтах (через идентификатор IDFA - Identifier for Advertisers). Около 70-80% пользователей iOS выбрали опцию “Ask App Not to Track”.

Для рекламных платформ это стало катастрофой. Внезапно алгоритм потерял возможность видеть, что конкретный пользователь, кликнувший на рекламу в Instagram, затем перешел на сайт магазина Shopify, положил товар в корзину и купил его.

3.2. Деградация векторного пространства

Возвращаясь к концепции многомерного векторного пространства: из-за потери сигналов векторы стали “размытыми”. Алгоритм больше не мог точно определить, какие пользователи действительно совершали конверсии на сторонних сайтах.

Когда алгоритм не видит конверсии, он не может правильно рассчитать центроид для Seed-аудитории. А если центроид рассчитан с ошибкой, то и поиск “ближайших соседей” (Lookalikes) превращается в стрельбу вслепую.

Узкие аудитории (1% LAL) пострадали больше всего. Поскольку алгоритм потерял хирургическую точность, ограничение охвата всего лишь 1-м процентом населения приводило к тому, что система не могла найти достаточное количество реальных покупателей в этой маленькой выборке (недостаток ликвидности). Стоимость за тысячу показов (CPM) росла, а CPA улетала в космос.

3.3. Probabilistic Modeling и AEM

Чтобы выжить, Meta (Facebook) внедрила Aggregated Event Measurement (AEM), а Google — Enhanced Conversions и Modeled Conversions. Платформы перешли от детерминированного отслеживания (мы точно знаем, кто купил) к вероятностному моделированию (машинное обучение предсказывает, кто скорее всего купил, на основе агрегированных данных).

Моделирование требует огромных массивов данных для корректной работы. Узкие сегменты (1%) просто не предоставляли достаточно данных (data points) для статистически значимых предсказаний.

4. Визуализация: Расширение аудитории и падение релевантности (Scaling Decay)

По мере того как вы увеличиваете процент Lookalike-аудитории (от 1% до 10%), происходит фундаментальный компромисс между релевантностью (сходством с исходной базой) и масштабом (охватом).

Ниже представлена SVG-диаграмма, иллюстрирующая, как падает векторное сходство при увеличении размера аудитории, и почему в условиях дефицита данных (post-iOS 14.5) платформы предпочитают более широкие диапазоны.

<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 800 500">
  <!-- Background -->
  <rect width="800" height="500" fill="#f8f9fa" rx="10"/>

  <!-- Title -->
  <text x="400" y="40" font-family="Arial" font-size="20" font-weight="bold" text-anchor="middle" fill="#333">Lookalike Audience Scaling Decay (1% to 10%)</text>
  <text x="400" y="60" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">Компромисс между сходством векторов и объемом аудитории</text>

  <!-- Axis -->
  <line x1="70" y1="400" x2="750" y2="400" stroke="#333" stroke-width="2"/>
  <line x1="70" y1="90" x2="70" y2="400" stroke="#333" stroke-width="2"/>

  <!-- Y-Axis Labels -->
  <text x="60" y="100" font-family="Arial" font-size="12" text-anchor="end" fill="#666">Макс.</text>
  <text x="60" y="245" font-family="Arial" font-size="12" text-anchor="end" fill="#666">Сходство</text>
  <text x="60" y="390" font-family="Arial" font-size="12" text-anchor="end" fill="#666">Мин.</text>
  <text x="-260" y="25" font-family="Arial" font-size="14" transform="rotate(-90)" fill="#333" font-weight="bold">Сходство с Seed (Косинусное расстояние)</text>

  <!-- X-Axis Labels -->
  <text x="120" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666" font-weight="bold">Seed</text>
  <text x="200" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">1%</text>
  <text x="300" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">3%</text>
  <text x="420" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">5%</text>
  <text x="570" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">7%</text>
  <text x="720" y="420" font-family="Arial" font-size="12" text-anchor="middle" fill="#666">10%</text>
  <text x="420" y="450" font-family="Arial" font-size="14" fill="#333" text-anchor="middle" font-weight="bold">Расширение размера аудитории (Охват)</text>

  <!-- Curves: Decay of Similarity -->
  <path d="M 120 110 C 160 110, 180 160, 200 210 C 250 310, 340 360, 420 380 C 520 395, 620 405, 720 408" fill="none" stroke="#EA4335" stroke-width="4"/>

  <!-- Audience Size Area (Cumulative) -->
  <path d="M 120 400 L 120 380 C 160 380, 180 350, 200 300 C 250 200, 340 150, 420 130 C 520 110, 620 90, 720 80 L 720 400 Z" fill="rgba(66, 133, 244, 0.15)" stroke="none"/>
  <path d="M 120 400 L 120 380 C 160 380, 180 350, 200 300 C 250 200, 340 150, 420 130 C 520 110, 620 90, 720 80" fill="none" stroke="#4285F4" stroke-width="3" stroke-dasharray="5,5"/>

  <!-- Markers and Annotations -->
  <circle cx="120" cy="110" r="7" fill="#EA4335" stroke="#fff" stroke-width="2"/>
  <circle cx="200" cy="210" r="7" fill="#FBBC05" stroke="#fff" stroke-width="2"/>
  <circle cx="420" cy="380" r="7" fill="#34A853" stroke="#fff" stroke-width="2"/>
  <circle cx="720" cy="408" r="7" fill="#999" stroke="#fff" stroke-width="2"/>

  <!-- Annotation Boxes -->
  <rect x="130" y="90" width="120" height="40" fill="white" stroke="#ccc" rx="4" filter="drop-shadow(0px 2px 2px rgba(0,0,0,0.1))"/>
  <text x="190" y="108" font-family="Arial" font-size="10" text-anchor="middle" fill="#333" font-weight="bold">Seed Audience</text>
  <text x="190" y="122" font-family="Arial" font-size="9" text-anchor="middle" fill="#666">Наивысший LTV</text>

  <rect x="220" y="180" width="140" height="55" fill="white" stroke="#ccc" rx="4" filter="drop-shadow(0px 2px 2px rgba(0,0,0,0.1))"/>
  <text x="290" y="198" font-family="Arial" font-size="10" text-anchor="middle" fill="#333" font-weight="bold">1% LAL (Узкая)</text>
  <text x="290" y="212" font-family="Arial" font-size="9" text-anchor="middle" fill="#666">Сильное совпадение,</text>
  <text x="290" y="222" font-family="Arial" font-size="9" text-anchor="middle" fill="#666">но низкая ликвидность</text>

  <rect x="440" y="320" width="150" height="55" fill="white" stroke="#ccc" rx="4" filter="drop-shadow(0px 2px 2px rgba(0,0,0,0.1))"/>
  <text x="515" y="338" font-family="Arial" font-size="10" text-anchor="middle" fill="#333" font-weight="bold">5%-10% LAL (Широкая)</text>
  <text x="515" y="352" font-family="Arial" font-size="9" text-anchor="middle" fill="#666">Поведение близко к</text>
  <text x="515" y="362" font-family="Arial" font-size="9" text-anchor="middle" fill="#666">Broad-таргетингу</text>

  <!-- Legend -->
  <rect x="580" y="100" width="180" height="60" fill="white" stroke="#ccc" rx="4"/>
  <line x1="590" y1="120" x2="610" y2="120" stroke="#EA4335" stroke-width="4"/>
  <text x="620" y="124" font-family="Arial" font-size="10" fill="#333">Падение релевантности</text>
  <rect x="590" y="135" width="20" height="10" fill="rgba(66, 133, 244, 0.2)"/>
  <line x1="590" y1="140" x2="610" y2="140" stroke="#4285F4" stroke-width="2" stroke-dasharray="2,2"/>
  <text x="620" y="144" font-family="Arial" font-size="10" fill="#333">Рост объема (Охват)</text>
</svg>

5. Эра Broad-таргетинга и “Креатив как Таргетинг”

Потеряв детерминированные данные для узких аудиторий, Meta и Google изменили саму парадигму показа рекламы. На смену ручному выбору аудиторий (интересы, LAL) пришел Broad Targeting (Открытый таргетинг) в комбинации с динамической оптимизацией креативов.

5.1. Что такое Broad Targeting?

Вместо того чтобы задавать жесткие рамки алгоритму (например, “показывай рекламу только женщинам 25-35 лет из 1% LAL покупателей”), вы оставляете таргетинг полностью открытым (возраст 18-65+, вся страна, никаких интересов или LAL-баз).

Почему это работает лучше, чем старые добрые 1% LAL? Потому что рекламным платформам нужна ликвидность данных (Data Liquidity). Когда вы даете алгоритму базу в 50-100 миллионов человек, машинному обучению есть где развернуться. Система тестирует миллионы микро-векторов в реальном времени, обучаясь на лету.

5.2. Креатив — это новый таргетинг

Если вы не указываете аудиторию, как алгоритм находит покупателей? Ответ: через сам рекламный креатив (видео, картинку, текст).

Алгоритм больше не полагается только на исторические данные (как в LAL). Он перешел на предиктивное моделирование в реальном времени:

Система показывает ваш видео-креатив широкой выборке пользователей.
Она анализирует реакцию: кто остановил скролл на вашем видео на 3 секунды? Кто включил звук? Кто досмотрел до 50%? Кто кликнул?
Алгоритм мгновенно формирует микро-сигналы вовлеченности (Engagement Signals).
Если пользователь А (молодая мама из Техаса) кликнула на рекламу коляски, алгоритм берет вектор пользователя А и в реальном времени ищет в Broad-аудитории людей с похожими векторами.

В этой парадигме креатив выступает в роли фильтра. Если ваш видеоролик с первых секунд обращается к “владельцам малого бизнеса”, то те, кто не является бизнесменом, просто пропустят видео (сигнал отказа), а бизнесмены остановятся (положительный сигнал). Алгоритм самообучается на этих реакциях. В узком 1% LAL у алгоритма просто нет достаточного количества людей для проведения таких масштабных микро-тестов.

5.3. Advantage+ и Performance Max

Венцом этой эволюции стали кампании Meta Advantage+ Shopping (ASC) и Google Performance Max (PMax). Эти алгоритмы полностью игнорируют классические Lookalike-настройки в виде жестких ограничений. Вы можете загрузить в них свою Seed-базу или LAL, но алгоритм будет использовать их не как жесткую границу таргетинга (Constraint), а лишь как первичный сигнал (Audience Signal) для стартового обучения. Как только алгоритм найдет паттерны через вовлеченность в креативы, он выйдет за пределы вашей базы и начнет таргетироваться Broad.

6. Современные стратегии работы с Lookalike (Best Practices 2024+)

Значит ли все вышесказанное, что LAL-аудитории полностью мертвы? Нет. Они трансформировались. Успешные media buyers используют их иначе, чем в 2019 году.

6.1. Stacking (Объединение аудиторий)

Никогда не тестируйте 1%, 2% и 3% LAL в отдельных группах объявлений (Ad Sets). Это дробит бюджет, вызывает внутреннюю конкуренцию (Audience Overlap) и лишает алгоритм ликвидности (алгоритм не успевает выйти из фазы обучения - Learning Phase). Современный подход: Объединяйте широкие диапазоны. Создайте одну группу объявлений, в которую загрузите 1-3% LAL + 3-5% LAL + 5-10% LAL от ваших лучших покупателей. Дайте алгоритму массив в 20+ миллионов человек, но с сильным изначальным весом в сторону ваших seed-данных.

6.2. Использование Lookalike как Audience Signals

В кампаниях типа Advantage+ Shopping и Performance Max вы больше не можете жестко задать LAL как единственный источник трафика. Зато вы можете загрузить Value-Based LAL (на основе LTV) в блок Audience Signals. Это говорит алгоритму: “Эй, искусственный интеллект, я даю тебе полную свободу (Broad), но начни свои тесты вот с этих людей, они похожи на моих лучших клиентов”. Это значительно ускоряет фазу обучения и снижает затраты на первичные тесты.

6.3. Lookalike для Exclusions (Исключений)

Одна из самых мощных тактик сегодня — использование LAL для отсечения нецелевого трафика в кампаниях по привлечению новых клиентов (Acquisition). Вы можете создать LAL 1-2% от людей, которые совершали возвраты (Refunds), обращались с жалобами в саппорт (Chargebacks) или постоянно покупают только товары со скидками 90% (Low LTV). Добавьте эту LAL в исключения вашей Broad-кампании. Алгоритм перестанет показывать рекламу “токсичным” кластерам пользователей.

6.4. Super-Lookalikes

Вместо того чтобы делать LAL от одного источника, создайте “Супер-Семя”. Соберите в один файл:

Топ-10% клиентов по LTV из CRM.
Людей, кто открыл более 10 email-рассылок за месяц.
Людей, кто провел на сайте более 5 минут и посетил страницу с ценами. Передайте этот плотный, мульти-канальный список в рекламный кабинет. Алгоритм получит беспрецедентно качественный многомерный вектор для расчета центроида.

7. Развенчание главных мифов о Lookalike

Чтобы подытожить, давайте разберем наиболее вредоносные мифы, которые все еще циркулируют на рынке digital-маркетинга.

Миф 1: 1% LAL всегда приносит самый дешевый трафик.
- Реальность: Из-за потери сигналов ATT, 1% LAL часто страдает от высоких CPM (стоимость 1000 показов). Аудитория слишком узкая, частота показов быстро растет, аудитория выгорает (Ad Fatigue) за несколько дней. Более широкие LAL (5-10%) в комбинации с сильным креативом сейчас дают более стабильный и низкий CPA на дистанции.
Миф 2: Для создания LAL нужны сотни тысяч строк в базе.
- Реальность: Алгоритму нужны не объемы, а плотность и консистентность паттернов. База из 10 000 случайных посетителей сайта сработает хуже, чем кристально чистая база из 500 VIP-клиентов. Качество (Signal-to-Noise Ratio) важнее количества.
Миф 3: Lookalike компенсирует плохой оффер или слабый креатив.
- Реальность: LAL 2018 года мог продавать посредственный продукт за счет хирургического таргетинга. LAL 2024 года на это не способен. Платформы перешли на экономику внимания. Если ваш креатив не удерживает пользователя (низкий Engagement Rate), алгоритм пессимизирует рекламу, независимо от того, насколько идеальна ваша Lookalike-аудитория.
Миф 4: Аудитории Lookalike обновляются мгновенно.
- Реальность: Если вы используете динамические аудитории (например, “Пиксель: Все покупатели за 30 дней”), алгоритм пересчитывает Lookalike не каждую секунду. Обычно обновление (Recalculation) векторного центроида занимает от 24 до 72 часов. Не делайте резких выводов о результатах кампании в первые два дня.
Миф 5: Lookalike из одной страны идеально переносится на другую.
- Реальность: Если у вас база покупателей из США, и вы делаете на её основе Lookalike в Германии, результат будет непредсказуемым. Поведенческие паттерны (векторы) сильно зависят от культуры, покупательной способности и локальных привычек потребления. Всегда старайтесь собирать локализованные Seed-базы.

Заключение: Сдвиг парадигмы в Media Buying

Lookalike-аудитории не умерли, они эволюционировали из самостоятельного инструмента в поставщика сигналов для более сложных систем искусственного интеллекта. Будущее paid social и programmatic-закупок принадлежит не тем маркетологам, которые умеют нарезать 1% аудитории, а тем, кто понимает, как “кормить” машинное обучение чистыми, First-Party данными (Value-Based Signals) и как управлять таргетингом через психологию и дизайн рекламных креативов.

В эпоху Broad и Advantage+ ваша главная задача — собирать лучшую CRM-базу (RFM-сегментация) и создавать креативы, которые сами найдут нужные векторы в бескрайнем море пользователей алгоритмов Meta и Google. Успешный маркетинг сегодня — это синергия качественных данных, выдающегося креатива и доверия к алгоритмам машинного обучения.