Когортный анализ

Статистика на службе у маркетологов

Вряд ли сегодня остались еще те специалисты, которые слово «маркетинг» трактуют как «реклама» и «продажи». Безусловно, это две важные составляющие маркетинговой деятельности. Но основа все же лежит в изучении спроса и поведения потребителей. А затем все трансформируется в поиск возможностей удовлетворения этих потребностей.

А раз зашла речь об изучении и анализе, значит – статистика нам в помощь. Тщательное накопление базы данных об особенностях покупателей позволяет досконально изучить спрос и использовать результаты анализа максимально выгодно для себя.

Наиболее часто маркетологи пользуются корреляционным и регрессионным анализом; их интересуют дескриптивные и прогнозные методологии изучения потребителей. Все это требует выделения по каким-то признакам наиболее показательных (или интересных для бизнеса) групп клиентов. Именно такое объединение и предлагает нам когортный анализ.

Недостатки исследований типа случай-контроль

Разумеется, у исследования типа «случай-контроль» имеется ряд ограничений и слабых сторон. Хотя такое исследование и способно проверять достоверность гипотезы о связи между фактором риска и исходом, этот инструмент уступает другим в определении причинно-следственной связи и ее силы, между воздействием (фактором риска) и конкретным результатом.

Поэтому исследования «случай-контроль» часто используются для получения ранних подсказок, дающих основания для проведения дальнейших исследований с использованием более строгих научных методов.

Но главный недостаток исследования «случай-контроль» в том, что они изучают уже произошедшие события (они ретроспективны), а значит не так надежны и не так информативны, как проспективные исследования.  

Еще одним недостатком таких исследований является ненадежность исходных данных. Часто люди, отвечающие на вопросы об уже произошедших событиях, не способны вспомнить их с необходимой степенью надежности. Люди с одним исходом более вероятно вспомнят причинный фактор риска, нежели люди с другим исходом, а также легко поддаются искушению приукрасить, изменить или «подогнать» получаемую от них информацию к сложившейся в их голове сумме предположений и умозаключений.

Такие виды погрешностей можно исключить в других видах исследования, например, методом ведения своевременных ежедневных записей. Однако при исследовании «случай-контроль» ученым приходится работать с анкетами, и пытаться сделать «расчет погрешности», зная заранее о недостатках этого метода.

Продемонстрировать такую погрешность очень легко: нужно предложить участникам вспомнить погоду в день заболевания, а затем сравнить эти записи с фиксированными объективными погодными данными. 

Более того, если что-то случилось ПОСЛЕ воздействия фактора риска — это еще не означает, что оно случилось ВСЛЕДСТВИЕ этого воздействия, это особенно актуально при ретроспективном взгляде.  

На самом деле, ретроспективное исследование в принципе не может окончательно доказать связь между явлениями, оно может лишь с определенной долей вероятности указывать на возможность такой связи

Тем не менее, есть немало вопросов, которые можно решить исследованием «случай-контроль», например, является ли причинно-следственная связь значимой, или есть ли зависимость доза-ответ при влиянии определенного фактора риска.
 
Ну и, наконец, еще одно важное ограничение: выборка пациентов обычно бывает из определенного круга, и не отражает выборку из полноценной популяции, а потому, опять же, снижается достоверность результатов. Примером этого являются, например, случаи наблюдений в клинической больнице, которая является узкоспециализированной организацией. 

Исследования типа «случай-контроль» редко называют этим термином

Чаще они называются «эпидемиологическими», «ретроспективными», или «наблюдательными».

Использование когортного анализа в разных направлениях маркетинга

Суть когортного анализа в том, что он наглядно демонстрирует изменения поведения группы в течение какого-то времени. Что нужно определить перед его выполнением? Какие данные содержит когортный анализ аудитории?

  1. Общий критерий или качество, единое для всех членов когорты.

  2. Величина группы – время формирования когорты.

  3. Отчётное время– период наблюдения за изменениями поведения людей в когорте.

  4. Критерий, которым в конечном счете будут оперировать.

Составление прогноза LTV

Под пожизненной ценностью клиента или LTV понимают сумму денежных поступлений от какого-то конкретного человека за все время пользования вашим сервисом. Только вряд ли кто соберется предсказать, сколько времени данный человек будет покупать ваши продукты или пользоваться услугами. Но этот показатель имеет значение для расчета инвестиций в рекламу и маркетинг.

Возможно ли прогнозирование LTV при помощи когортных исследований? Безусловно! Вот как это делается:

  • Определяете когорту, члены которой произвели оплату в конкретный месяц, например, пусть будет январь 2020 г.

  • Смотрите, как долго продолжаются оплаты от этой когорты.

  • Для удобства все цифры собираете в таблице и рассчитываете данные за каждый месяц, для чего всю поступившую сумму дохода делите на численность группы.

  • В завершение отчета выводите медиану покупателей, входящих в разные когорты, за предыдущие периоды – это помогает оценке прогноза LTV.

Сравнение каналов поступления клиентов

Когортный анализ помогает определить, какие источники приводят более ценных клиентов и разработать дальнейшую стратегию в плане вложения денежных средств в рекламу. Поясним с помощью примера:

  • в общую когорту вписывают всех, кто посещал онлайн-площадку в определенный период времени;

  • группа делится на сегменты в зависимости от канала привлечения;

  • делают сравнительный анализ по месяцам коэффициентов удержания и повторных заказов;

  • в зависимости от коэффициента выявляют самые перспективные источники, поставляющие лояльных к вам клиентов.

Для расчета коэффициента применяются следующие формулы:

Коэффициент удержания клиента = ((Число покупателей в конце периода − Число покупателей, привлеченных за период) / Число покупателей на дату начала отсчета времени

Коэффициент повторных покупок = Число купивших повторно / Общая численность покупателей

Оценка ROI рекламы

Конечно, если бы клиент, едва зайдя на страницу сайта, сразу делал покупки, мы бы с вами не знали горя! Однако это не так. Человек сначала изучает информацию, затем уже принимает решение покупать или отложить на потом. Бывает, что этот период слишком затягивается, поэтому становится трудно оценить эффективность рекламной кампании. Или выводы бывают слишком поспешными и неверными. Использование когортного анализа помогает оценить эффективность рекламы:

  • Определяется группа людей, которые откликнулись на одну рекламу.

  • Высчитывается показатель эффективности рекламного канала.

  • Делается анализ динамики за несколько месяцев.

Оценка эффективности медиаисточников

Специалисты, которые анализируют работу мобильных приложений, часто сталкиваются с такой проблемой: довольно легко можно посчитать количество скачиваний, но неизвестно, откуда пришел поток наиболее активных клиентов. Как это узнать? Проблема решается с помощью когортного анализа. Посмотрите на примере:

  • Выделяют группу людей, которые используют интересующую вас версию мобильного приложения.

  • Затем ее разделяют на сегменты в зависимости от того, по какому каналу пришел клиент.

Проведение А/Б-тестов

Сопоставление данных по А/Б-тестам не представляет из себя ничего сложного. Во-первых, производят замену необходимого элемента на своей онлайн-площадке, делают дубль страницы с каким-либо одним изменением, пользователей информируют об этом и наблюдают за динамикой эффективности. Но долгосрочный анализ такими тестами проводить не удастся. Лучше воспользоваться когортным исследованием

Таким образом, например, тестируют внимание посетителей к обновленным кнопкам на лендинге:

  • Выделяют какой-то период на тестирование, затем в одной группе объединяют тех, кто в первый раз перешел на обновленную версию сайта.

  • В другую собирают людей, которые продолжали пользоваться старым сайтом.

  • Анализируем показатели эффективности.

Gross profit

Предположим, что наш бизнес не имеет издержек COGS и 1sCOGS, а следовательно рассчитывать на их не надо (иначе поступаете точно так же, как с конверсией, APC и т.д., строите таблицу получаете нужное значение). Для этого мы вычисляем ARPPU по формуле ARPPU = (Av.Price — COGS) x APC — 1sCOGS. У нас получается следующая таблица:

Как видно, значение ARPPU для когорты с каждым месяцем растет. Аналогичным образом получаем значение ARPU = ARPPU x C1.

Для вычисления Gross Profit нам необходимо знать, сколько мы потратили денег на создание каждой когорты. Предположим, что наш маркетинговый бюджет равен 400 000 рублей в месяц. Следовательно, каждый месяц мы тратим деньги на формирование когорты по 400 000 рублей. Это позволяет нам рассчитать стоимость привлечения посетителя в когорту CPA. У нас получаются следующие данные: Январская когорта 400 000 / 18 849 = 21.22 рубля, февральская — 18.99, мартовская — 18.05, апрельская — 19.91 и майская — 17.63. Теперь мы можем, посчитать GP для каждой когорты на каждый месяц.

Давайте разберем нашу таблицу. Январская когорта в январе принесла нам 86 500 рублей, при этом на февраль (январь + февраль) она принесла нам уже 382 250 рублей и так далее на май мы имеем 1 064 504 рубля. Это связано с тем, что значение ARPU со временем растет, а значение CPA остается неизменным. Однако давайте посмотрим какой доход мы получаем именно в каждый месяц, а не накопительным итогом.

Для этого нам надо из накопительного итога вычесть доходы от предыдущих месяцев, и нас получится следующая таблица:

Теперь мы видим сколько денег мы получаем каждый месяц ото всех когорт. Из таблицы хорошо видно, что хотя с каждым месяцем доход от каждой когорты падает, доход каждый месяц растет за счет того, что растет число когорт.

Атрибутивный (добавочный) риск (ar), снижение абсолютного риска (сар):

,
или AR
(САР) =
RF+
RF

3.
относительный
риск (
RR)

,
или

Значение
относительного
риска

(RR): используется для ориентировочной
оценки причинно-следственной
связи

между фактором риска и возникновением
болезни. При этом:

  • значение
    RR равное 1 рассматривается как отсутствие
    связи между фактором и болезнью;

  • если
    величина RR больше 1 считается, что чем
    больше RR, тем выше риск заболеть тех
    лиц, которые подвергались воздействию
    фактора, т.е. изучаемый фактор является
    фактором риска;

  • если
    величина RR меньше 1, значит, риск заболеть
    экспонированных лиц ниже, чем у тех на
    кого изучаемый фактор не воздействовал
    и, следовательно, данный фактор, вероятно,
    оказывает благоприятное воздействие
    на здоровье.

4.
этиологическую долю (
EF)
или снижение относительного риска (СОР)
можно
рассчитать по любой из представленных
формул:

1)

2)

3)
где:

  • абсолютный
    риск
    в %,

  • группа
    F+
    — группа
    населения, подверженная влиянию фактора
    риска — основная группа;

  • группа
    F

    — группа населения неподверженная
    влиянию фактора риска — контрольная
    группа;

  • EF
    (СОР)
    чаще
    всего выражается в процентах .

5.
2
(хи-квадрат),

(критерий Пирсона, критерий согласия,
соответствия), необходимый для
статистической оценки гипотезы
причинно-следственной связи.

Критерий
2
(хи-квадрат), так же как и другие
статистические методы оценки различия
переменных позволяет принять, или
отвергнуть нулевую гипотезу, которая
в данном случае утверждает, что выявленные
различия в частоте заболеваний в
сравниваемых группах определяются
исключительно случайной ошибкой.
Величина критерия 2
позволяет:

  • оценить
    достоверность различий заболеваемости
    в опытной и контрольной группе;

  • высказать гипотезу
    о наличие связи между заболеваемостью
    и изучаемым фактором.

Формула расчета
2:
,

Эта формула
применяется, если N
больше 40. Однако при этом если одно из
значений (a, b, c или d ) в таблице «два на
два» будет меньше 5, но больше 0, следует
использовать другую формулу (с поправкой
Йетса):

В других случаях
вместо критерия 2
рекомендуется
использовать точный критерий Фишера

Уровень ошибки и,
соответственно, уровень достоверности
различий заболеваемости в сравниваемых
группах, а, следовательно, и уровень
достоверности суждения о наличии
связи между
фактором и заболеваемостью зависит от
значения 2и определяется
по таблице 2-распределения
(она есть в
любом статистическом справочнике
).
Для таблицы
«два на два»:

2
= 3,841 соответствует уровню ошибки –
р=0,05

2
= 6,635 соответствует уровню ошибки — р=0,01

Таким образом,
значение 2
, позволяющее
отвергнуть нулевую гипотезу, должно
быть (для
таблицы «два на два
»)
не менее
3,841.

Примеры

Пример эпидемиологического вопроса, на который можно ответить с помощью когортного исследования, — это связано ли воздействие X (скажем, курение) с результатом Y (скажем, раком легких). В 1951 году началось британское исследование врачей , когорта которого включала как курильщиков (группа, подвергавшуюся воздействию), так и некурящих (группа, не подвергавшаяся воздействию). Исследование продолжалось до 2001 года. К 1956 году исследование предоставило убедительные доказательства связи курения с заболеваемостью раком легких. В когортном исследовании группы сопоставляются по многим другим переменным, таким как экономический статус и другое состояние здоровья, так что оцениваемая переменная, независимая переменная (в данном случае курение) может быть выделена как причина зависимой переменной. (в данном случае рак легких). В этом примере статистически значимое увеличение заболеваемости раком легких в группе курящих по сравнению с группой некурящих является свидетельством в пользу гипотезы. Однако редкие исходы, такие как рак легких, обычно не изучаются с помощью когортного исследования, а скорее изучаются с помощью исследования случай-контроль .

Краткосрочные исследования обычно используются в медицинских исследованиях как форма клинических испытаний или как средство проверки конкретной гипотезы, имеющей клиническое значение. В таких исследованиях обычно наблюдают за двумя группами пациентов в течение определенного периода времени и сравнивают конечную точку или показатель результата между двумя группами.

Рандомизированные контролируемые испытания или РКИ являются лучшей методологией в иерархии доказательств, поскольку они ограничивают возможность систематической ошибки путем случайного отнесения одного пула пациентов к вмешательству, а другого пула пациентов к невмешательству (или плацебо). Это сводит к минимуму вероятность того, что частота смешивающих переменных будет отличаться между двумя группами. Тем не менее, иногда проводить РКИ для ответа на клинический вопрос непрактично или этично. Возьмем наш пример: если бы у нас уже были разумные доказательства того, что курение вызывает рак легких, то убеждать группу некурящих бросить курить, чтобы проверить эту гипотезу, как правило, было бы довольно неэтичным.

Двумя примерами когортных исследований, которые продолжаются более 50 лет, являются Фрамингемское исследование сердца и Национальное исследование развития ребенка (NCDS), наиболее широко изучаемые из когортных исследований в Великобритании . Основные результаты NCDS и подробный профиль исследования опубликованы в Международном журнале эпидемиологии .

Данидин Многолетнее исследование , начатое в 1975 году, занимается изучением тысяч людей , родившихся в Данидин , Новая Зеландия, в 1972-1973 гг. С участниками регулярно проводятся интервью, начиная с фазы 45 в 2017 году.

Самым крупным когортным исследованием среди женщин является Исследование здоровья медсестер . Начатый в 1976 году, он отслеживает более 120 000 медсестер и был проанализирован на предмет различных состояний и результатов.

Самым крупным когортным исследованием в Африке является исследование «От рождения до двадцати» , начатое в 1990 году и отслеживающее когорту из более чем 3000 детей, родившихся в течение нескольких недель после освобождения Нельсона Манделы из тюрьмы.

Другим известным примером является исследование Grant Study, отслеживающее ряд выпускников Гарварда из ок. 1950.77, исследование Уайтхолла, отслеживающее 10 308 британских государственных служащих, и исследование сердечных заболеваний Кайрфилли , в рамках которого с 1979 года изучалась репрезентативная выборка из 2512 мужчин, взятых из валлийского города Кайрфилли.

Исследование ASPREE-XT разработано, чтобы определить, есть ли долгосрочные эффекты в среднем 4–5 лет лечения ежедневными низкими дозами аспирина с оценкой результатов, включая смертность от рака. По состоянию на сентябрь 2018 года в Австралии было 16 703 участника ASPREE-XT.

Когортный анализ в Google Analytics

В настоящее время для проведения различных исследований Google предлагает пользоваться своим базовым когортным счетом. Благодаря этому аналитическому инструменту специалисты по маркетингу и аналитике получили возможность более просто и эффективно тестировать контент, рекламные объявления и другие продукты. С помощью когортного анализа удобно сравнивать две или более групп за конкретное время.

Давайте теперь перейдем непосредственно к когортному анализу в Google Analytics. Выполняется он в разделе Audience. Ранее для создания собственных когортных отчетов более опытными пользователями Google Analytics использовались имеющиеся там инструменты сегментирования. Но теперь разобраться в сервисе сможет большее количество обычных людей.

Сервис Google Analytics позволяет работать с когортным отчетом, применяя разные виды групп, размеры, метрики, временные рамки:

  • Типы когорт. Когда мы работали над этим материалом, в качестве критерия для объединения людей в когорту можно было взять только дату регистрации, это давало возможность наблюдать за их действиями на сайте за определенное время.

  • Метрики. Имеются в виду самые разные параметры, которые могут быть измерены. На данный момент можно использовать в качестве метрик соотношение конверсии и количества пользователей, число просмотренных одним человеком страничек сайта, число посещений сайта одним пользователем, число удержанных посетителей, величину конверсии, число оплаченных заказов и т.д.

  • Отрезок времени. Здесь речь о моменте просмотра, т.е. относительном временном диапазоне.

Сервис позволяет создавать сегментированные когортные отчеты. Как пример, попробуйте провести сравнительный анализ величин средней продолжительности нахождения на сайте при использовании мобильного приложения и стационарного компьютера. Или можете посчитать количество людей, которые зарегистрировались за десять дней до новогодних праздников.

Анализировать каналы привлечения

Когортный анализ поможет узнать, из каких каналов приходят наиболее лояльные пользователи, и вы сможете уделить этим каналам не только больше внимания, но и больше бюджета. Порядок действий очень простой. Рассмотрим пример:

  • выделите в когорту пользователей, которые посетили сайт за последние полгода;
  • сегментируйте их по каналам привлечения;
  • в разрезе каждого месяца сравните коэффициент удержания и коэффициент повторных покупок;

Коэффициент удержания клиента = ((Количество клиентов на конец периода — Количество новых клиентов, приобретенных за период) / Количество клиентов на начало периода

Коэффициент повторный покупок = Количество повторных клиентов / Общее число клиентов

каналы с наиболее высоким коэффициентом приносят лояльных пользователей и заслуживают вашего внимания. Спад активности в когорте означает, что вам пора подогреть интерес этих пользователей.

На скрине мы видим, что первая Facebook Ads когорта самая лояльная и она медленнее всех остывает: высокая доля пользователей совершает повторные покупки в течение пяти месяцев. Если есть возможность ее масштабировать — надо масштабировать. А вот последний Google Ads самый хиленький и когорта сильно остывает — нужно или научиться работать с этой когортой, или менять рекламу, а то и вовсе отключать. К тому же, такой отчет показывает, когда именно остывание самое сильное, а значит — когда надо начинать подогревать.

Пример построения базового когортного анализа

Определение параметров

  1. Признак формирования когорты — дата подписки.
  2. Размер когорты — месяц.
  3. Временной интервал — с января 2018 по ноябрь 2019.
  4. Ключевой показатель — CR.

Исходные данные

  • ID подписчика (в качестве ID может выступать email);
  • дата подписки.
  • ID подписчика;
  • дата совершения действия;
  • рассылка, в которой совершено действие.

Алгоритм работы

  1. Группируем пользователей по дате подписки, учитывая размер когорты. Получаем количество подписчиков в каждой когорте.
  2. Объединяем таблицу 2 с таблицей 1, используя в качестве ключа общее поле — ID подписчика.
  3. Группируем полученную из пункта 2 таблицу по полям «дата совершения действия» и «дата подписки» и подсчитываем для такой пары общее количество кликов.
  4. Рассчитываем для каждой пары значение ключевого показателя.

Анализ результатов

  1. Когорты «Январь 2018», «Март 2018» и «Апрель 2019» оказались очень неактивными. Если посмотреть на количество подписчиков в данных когортах, картина становится более ясной.В январе и марте 2018 было огромное количество подписок. Вероятно, проводились «очень успешные» кампании, которые собрали такую базу. Если смотреть на общие ежемесячные показатели, то выглядит вполне убеждающе — кампании сработали и подняли CR.Когортный анализ показывает, как выглядит ситуация на самом деле. CR увеличился за счёт когорты февраля 2018. А большинство подписчиков, зарегистрировавшихся в январе и марте 2018, не являются целевой аудиторией и только загрязняют базу.Когорта «Апреля 2019» не является сильно выпадающей из общей картины. Чтобы определить причину таких невысоких показателей, надо иметь больше данных: откуда пришли эти клиенты, не было ли каких-нибудь тестирований, не изменялась ли рекламная стратегия и так далее.
  2. Подписчики 2019 года в первые месяцы более активны, чем подписчики 2018 года.
  3. В октябре 2018 года CR был слишком мал. Даже те когорты, которые до этого месяца и в следующие месяцы показали себя довольно лояльными, в октябре 2018 плохо взаимодействовали с рассылками.

    Причины могут быть разные. Может, компания решила сменить подход к контенту (увидели, что сделали только хуже, и вернулись к прошлому варианту). А возможно, ссылки оказались некликабельными. Если устанавливать размер когорты в день или неделю, то можно оперативно отслеживать работоспособность не только в рассылках.
    Есть ещё один вариант представления когортного анализа в виде матрицы, где значения в столбцах — это номер месяца, следующий за месяцем подписки.
    При таком представлении удобно сравнивать когорты по их взаимодействию и определять время жизни подписчика.

Сравнение с контролируемыми испытаниями

Когортные исследования отличаются от клинических исследований тем, что участникам в когортном дизайне не назначается никакого вмешательства, лечения или воздействия; и контрольная группа не определена. Скорее, когортные исследования в основном посвящены историям жизни отдельных сегментов населения и отдельных людей, составляющих эти сегменты. Воздействия или защитные факторы идентифицируются как уже существующие характеристики участников. Исследование контролируется включением других общих характеристик когорты в статистический анализ. На исходном уровне измеряются как воздействие / лечение, так и контрольные переменные. Затем за участниками наблюдают с течением времени, чтобы определить уровень заболеваемости или исхода заболевания. Затем можно использовать регрессионный анализ для оценки степени, в которой переменная воздействия или лечения влияет на частоту заболевания, с учетом других переменных, которые могут иметь значение.

Двойные слепые рандомизированные контролируемые испытания (РКИ) обычно считаются лучшей методологией в иерархии доказательств в лечении, потому что они позволяют максимально контролировать другие переменные, которые могут повлиять на результат, а процессы рандомизации и ослепления снижают систематическую ошибку в дизайне исследования. . Это сводит к минимуму вероятность того, что на результаты будут влиять смешивающие переменные, особенно неизвестные. Однако обоснованные гипотезы, основанные на предшествующих исследованиях и фоновых знаниях, используются для выбора переменных, которые будут включены в регрессионную модель для когортных исследований, а статистические методы могут использоваться для выявления и учета потенциальных факторов, влияющих на эти переменные

Предвзятость также может быть уменьшена в когортном исследовании при выборе участников для когорты. Также важно отметить, что РКИ могут не подходить во всех случаях; например, когда результатом является отрицательный эффект для здоровья, и предполагается, что воздействие является фактором риска для этого результата

Этические стандарты и мораль не позволят использовать факторы риска в РКИ. Естественное или случайное воздействие этих факторов риска (например, время, проведенное на солнце) или самостоятельное воздействие (например, курение) можно измерить, не подвергая участников воздействию факторов риска, выходящих за рамки их индивидуального образа жизни, привычек и выбора.

Глубокая действенная когортная аналитика

«Эффективная метрика — это метрика, которая связывает определенные и повторяемые действия с наблюдаемыми результатами . Противоположными действенным метрикам являются метрики тщеславия (например, количество посещений в Интернете или количество загрузок), которые служат только для документирования текущего состояния продукт, но не дает никаких сведений о том, как мы сюда попали и что делать дальше «. Без действенной аналитики представляемая информация может не иметь практического применения, поскольку единственные точки данных представляют собой тщеславные метрики, которые не приводят к какому-либо конкретному результату. Компании полезно знать, сколько людей находится на ее сайте, но сам по себе этот показатель бесполезен. Чтобы оно было действенным, необходимо соотнести «повторяемое действие с [] наблюдаемым результатом».

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий