Oversampling, upsampling и downsampling. в чём отличия?

Метод

Вычислительная стоимость и адаптивная суперсэмплинг

Суперсэмплинг требует больших вычислительных ресурсов, поскольку требует гораздо большей памяти видеокарты и пропускной способности памяти , поскольку объем используемого буфера в несколько раз больше. Обойти эту проблему можно с помощью метода, известного как адаптивная суперсэмплинг , при котором суперсэмплинг подвергаются только пиксели на краях объектов.

Первоначально в каждом пикселе берутся только несколько образцов. Если эти значения очень похожи, только эти образцы используются для определения цвета. Если нет, используются другие. Результатом этого метода является то, что большее количество выборок вычисляется только там, где это необходимо, что улучшает производительность.

Шаблоны суперсэмплинга

При отборе образцов в пределах пикселя положение образцов должно быть определено каким-то образом. Хотя количество способов, которыми это можно сделать, бесконечно, существует несколько обычно используемых способов.

Сетка

Самый простой алгоритм . Пиксель разбивается на несколько подпикселей, и образец берется из центра каждого. Это быстро и легко реализовать. Хотя, из-за регулярного характера выборки, наложение спектров все еще может происходить, если используется небольшое количество подпикселей.

Случайный

Также известный как стохастическая выборка, она позволяет избежать регулярной суперсэмплинга сетки. Однако из-за неравномерности рисунка в некоторых областях пикселя сэмплы оказываются ненужными, а в других — отсутствуют.

Диск Пуассона

Точечные выборки, созданные с использованием выборки диска Пуассона, и графическое представление минимального межточечного расстояния

Снова алгоритм, который размещает образцы случайным образом, но затем проверяет, не слишком ли близки любые два. Конечным результатом является равномерное, но случайное распределение выборок. Однако вычислительное время, необходимое для этого алгоритма, слишком велико, чтобы оправдать его использование в рендеринге в реальном времени , если только сама выборка не требует больших вычислительных затрат по сравнению с позиционированием точек выборки или точки выборки не перемещаются для каждого отдельного пикселя.

Взволнованный

Модификация сеточного алгоритма для аппроксимации диска Пуассона. Пиксель разбивается на несколько подпикселей, но выборка берется не из центра каждого, а из случайной точки внутри подпикселя. Конгрегация все еще может происходить, но в меньшей степени.

Повернутая сетка

Используется сетка 2 × 2, но образец образца поворачивается, чтобы избежать выравнивания образцов по горизонтальной или вертикальной оси, что значительно улучшает качество сглаживания для наиболее часто встречающихся случаев. Для оптимального шаблона угол поворота арктангенциальный (12) (около 26,6 °), а квадрат растягивается в√ 52.

Примечания[править]

  1. I. Mani, J. Zhang. “kNN approach to unbalanced data distributions: A case study involving information extraction,” In Proceedings of the Workshop on Learning from Imbalanced Data Sets, pp. 1-7, 2003.
  2. D. Wilson, “Asymptotic Properties of Nearest Neighbor Rules Using Edited Data,” IEEE Transactions on Systems, Man, and Cybernetrics, vol. 2(3), pp. 408-421, 1972.
  3. N. V. Chawla, K. W. Bowyer, L. O. Hall, W. P. Kegelmeyer, “SMOTE: Synthetic minority over-sampling technique,” Journal of Artificial Intelligence Research, vol. 16, pp. 321-357, 2002.
  4. H. Han, W.-Y. Wang, B.-H. Mao, “Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning,” In Proceedings of the 1st International Conference on Intelligent Computing, pp. 878-887, 2005.
  5. H. M. Nguyen, E. W. Cooper, K. Kamei, “Borderline over-sampling for imbalanced data classification,” In Proceedings of the 5th International Workshop on computational Intelligence and Applications, pp. 24-29, 2009.
  6. G. E. A. P. A. Batista, A. L. C. Bazzan, M. C. Monard, “Balancing training data for automated annotation of keywords: A case study,” In Proceedings of the 2nd Brazilian Workshop on Bioinformatics, pp. 10-18, 2003.
  7. G. E. A. P. A. Batista, R. C. Prati, M. C. Monard, “A study of the behavior of several methods for balancing machine learning training data,” ACM Sigkdd Explorations Newsletter, vol. 6(1), pp. 20-29, 2004.
  8. X.-Y. Liu, J. Wu and Z.-H. Zhou, “Exploratory undersampling for class-imbalance learning,” IEEE Transactions on Systems, Man, and Cybernetics, vol. 39(2), pp. 539-550, 2009.
  9. C. Chao, A. Liaw, and L. Breiman. «Using random forest to learn imbalanced data.» University of California, Berkeley 110 (2004): 1-12.
  10. Hido, Shohei & Kashima, Hisashi. (2008). Roughly Balanced Bagging for Imbalanced Data. 143-152. 10.1137/1.9781611972788.13.

Сэмплинг акции

Прежде чем проводить сэмплинг-акцию стоит взвесить все преимущества и недостатки метода. Главное, определить какая конкретно задача стоит в конкретном случае: повысить объем продаж, продвижение нового неизвестного пока продукта, повысить известность товарной марки или что-то еще.

Проведение сэмплинга задача дорогостоящая, поэтому стоит просчитать все заранее. Здесь надо учесть стоимость наладки производства для изготовления пробников, оплата персонала, стоимость аккредитации.

Кроме того, могут потребоваться расходы на специальную одежду для промоутеров.

Акцию можно проводить своими силами — это значит самим набирать персонал, договариваться о разрешении проведения акции в предполагаемом месте.

Или можно переложить эту ответственность на специализированные фирмы и только оплатить расходы. Если планируется крупномасштабная акция с участием нескольких городов или точек, то предпочтительнее привлечь профессионалов.

Предсказание популярности

Попробуем Word2Vec уже в текстовой задаче — предсказании популярности статьи на Хабрхабре.

Испробуем силы алгоритма непосредственно на текстовых данных статей Хабра. Мы преобразовали данные в csv таблицы. Скачать их вы можете здесь: train, test.

Будем обучать модель на всем содержании статьи. Для этого совершим некоторые преобразования над текстом.

Напишем функцию, которая будет преобразовывать тестовую статью в лист из слов необходимый для обучения Word2Vec.
Функция получает строку, в которой содержится весь текстовый документ.

1) Сначала функция будет удалять все символы кроме букв верхнего и нижнего регистра;

2) Затем преобразовывает слова к нижнему регистру;

3) После чего удаляет стоп слова из текста, т.к. они не несут никакой информации о содержании;

4) Лемматизация, процесс приведения словоформы к лемме — её нормальной (словарной) форме.

Функция возвращает лист из слов.

Лемматизация занимает много времени, поэтому ее можно убрать в целях более быстрых подсчетов.

Будем обучаться на 2015 году, а валидироваться по первым 4 месяцам 2016, т.к. в нашей тестовой выборке представлены данные за первые 4 месяца 2017 года. Более правдивую валидацию можно сделать, идя по годам, увеличивая нашу обучающую выборку и смотря качество на первых четырех месяцах следующего года

Посмотрим чему выучилась модель:

Модель обучилась достаточно неплохо, посмотрим на результаты алгоритмов:

Попробуем нейронные сети.

Получили более хороший результат по сравнению с гребневой регрессией.

Заключение

Word2Vec показал свою пользу на практических задачах анализа текстов, все-таки не зря на текущий момент на практике используется в основном именно он и — гораздо менее популярный — GloVe. Тем не менее, может быть в вашей конкретной задаче, вам пригодятся подходы, которым для эффективной работы не требуются такие объемы данных, как для word2vec.

Код ноутбуков с примерами можно взять здесь. Код практического применения — вот тут.

Пост написан совместно с demonzheg.

Сэмплинг продукции

Если говорить кратко, то сэмплинг – это раздача бесплатных образцов, тестеров или аксессуаров. Раздавать образцы можно лично, например, в магазине или торговом центре. Можно рассылать пробники по почте или распространять через журналы или другие печатные издания.

Основная идея этого мероприятия дать потенциальному потребителю ощутить результат на себе или попробовать продукт на вкус, не потратив при этом своих денег.

Популярными вариантами сэмплинга являются:

  • раздача пробников, которыми потребитель воспользуется дома. Например, шампунь, крем. Так называемый сухой сэмплинг;
  • предложение попробовать продукт прямо на месте. Данный способ больше подходит для продуктов питания. Эту разновидность назвали мокрым сэмплингом.
  • обмен полупустой упаковки товара другой марки на полную упаковку рекламируемого;

Пробоотборники

Fairlight CMI, сэмплер и синтезатор, выпущенный в 1979 году. Разработчики придумали термин « сэмплирование» для описания его характеристик.

The Guardian описал Чемберлин как первый пробоотборник, разработанный английским инженером Гарри Чемберлином в 1940-х годах. Чемберлин использовал клавиатуру для запуска серии кассетных дек, каждая из которых содержала восемь секунд записанного звука. Подобная технология была популяризирована в 60-х годах с появлением меллотрона . В 1969 году английский инженер Питер Зиновьев разработал первый цифровой сэмплер EMS Musys.

Термин « сэмпл» был придуман Кимом Райри и Питером Фогелем для описания особенности их синтезатора Fairlight CMI , выпущенного в 1979 году. При разработке Fairlight Фогель записал примерно секунду фортепианной пьесы из радиопередачи и обнаружил, что может имитировать пианино, проиграв запись на разных тонах. Он вспоминал в 2005 году:

Разработчики Fairlight использовали термин « сэмплер» для описания технического процесса инструмента, а не того, как пользователи будут использовать эту функцию. По сравнению с более поздними пробоотборниками Fairlight предлагал ограниченный контроль над образцами; он позволял контролировать высоту тона и огибающую и мог записывать только несколько секунд звука. Однако самой популярной его функцией стала функция выборки. Хотя концепция повторного использования записей в более крупных записях не была новой, дизайн Fairlight и встроенный секвенсор сделали процесс простым.

Akai MPC , влиятельный Пробоотборник производства с 1988

Fairlight стимулировал конкуренцию, улучшая технологию отбора проб и снижая цены. Первыми конкурентами были эмулятор E-mu и Akai S950 . Драм-машины, такие как Oberheim DMX и Linn LM-1, включали сэмплы ударных и перкуссии, а не генерировали звуки из схем. Ранние семплеры могли хранить семплы длиной всего несколько секунд, но это увеличилось с улучшенной памятью .

В 1988 году Akai выпустила первый сэмплер MPC , который позволял пользователям назначать сэмплы на пэды и запускать их независимо, аналогично игре на клавиатуре или ударной установке. За ним последовали конкурирующие сэмплеры от таких компаний, как Korg , Roland и Casio . Сегодня большинство сэмплов записываются и редактируются с использованием цифровых звуковых рабочих станций, таких как Pro Tools и Ableton Live .

Литература

  1. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation
    of word representations in vector space. CoRR, abs/1301.3781,
  2. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013. Proceedings of a meeting held December 5-8, 2013, Lake Tahoe, Nevada, United States, pages 3111–3119, 2013.
  3. Morin, F., & Bengio, Y. Hierarchical Probabilistic Neural Network Language Model. Aistats, 5, 2005.
  4. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. 2014.
  5. Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors
    with subword information. arXiv preprint arXiv:1607.04606, 2016.

* Да, это специальная пасхалка для любителей творчества Энтони Бёрджеса.

Мастер настройки

  • Состояние входа — при активном состоянии позволяет использовать входные данные. Например, в «Отбор со смещением» нужны данные из входного набора.
  • Общее число записей — число записей таблицы входного источника данных.
  • Область настройки количества строк выходной таблицы.
    Размер выходной таблицы задается вручную; кнопка-переключатель предоставляет выбор — непосредственно указать количество строк или задать его в процентах от размера исходной таблицы.
  • Метод сэмплинга
    • Случайный — записи случайным образом выбираются из исходного набора данных и помещаются в результирующую выборку.
    • Равномерный случайный — все записи исходного набора данных разделяются на группы и затем из каждой группы случайным образом выбираются и помещаются в результирующую выборку. Размерность группы задается в параметрах метода.
    • Стратифицированный — все записи исходного набора данных разделяются на однородные группы (страты), после чего из каждой группы случайным образом выбираются и помещаются в результирующую выборку. Поля, определяющие страты, задаются в параметрах метода с помощью флажков.
    • Последовательный — в параметрах метода определяется, откуда будет взята выборка — из начала исходной таблицы или из конца. Последовательность строк в выборке будет такой же, как и в исходной таблице.
    • Отбор со смещением — после определения размера выборки дается возможность менять в ней количество записей с конкретными уникальными значениями. При выборе метода открывается поле его параметров. В нем следует выбрать поле и уникальное значение из этого поля, для которого устанавливается фактор. Фактор, имеющий значение N, увеличит количество строк с интересующим нас уникальным значением в N раз в выходном наборе данных. N может принимать любые положительные значения. Следует учитывать, что максимальное количество уникальных значений в поле не должно превышать десять тысяч.

Чем хорош сэмплинг?

Как мы видим, сэмплинг – это крайне эффективный инструмент. Ведь потенциальному покупателю предоставляется уникальная возможность самостоятельно изучить упаковку, ее содержимое, состав, вкус, удобство использования и другие характеристики товара. Причем все это абсолютно бесплатно. Главным преимуществом здесь является привлечение повышенного внимания именно к вашему бренду, что делает возможным переключение клиента с конкурирующего товара на ваш.

Сэмплинг-маркетинг является уникальным инструментом, ведь он позволяет охватить самые разнообразные категории товаров. Это и продукты питания, и косметика, и парфюмерия, и средства личной гигиены, и товары для домашних животных, а также многое-многое другое.

Причем сэмплинг можно проводить не только в месте непосредственной продажи товара (как, к примеру, дегустацию), но и на открытых площадках (улицах, парках и т. п.). Это позволяет сократить расходы и трудности по согласованию акции непосредственно с руководством торговых точек. Итак, предлагаем подытожить плюсы этого маркетингового инструмента.

28 Feb Непрямая реклама: сэмплинг

Posted at 11:38h
in Аналитика рынка, Рекламные носители
by Mascha

В последнее время большинство рекламодателей все чаще отдают предпочтение промо-акциям, спонсорствам и корпоративным мероприятиям. Именно поэтому все популярнее становится BTL-маркетинг – непрямая реклама.

Что такое BTL-маркетинг?

BTL-маркетинг – below the line («под чертой») – комплекс маркетинговых коммуникаций, включающий в себя стимулирование сбыта, мерчандайзинг, партизанский маркетинг, директ мейл и др. Рекламное сообщение в этом случае носит максимально личностный и индивидуальный характер. BTL-маркетологи стремятся донести информацию до конечного потребителя, поэтому в большинстве случаев такие рекламные акции проводятся именно в местах принятия решения о покупке товара или услуги.

Старый добрый сэмплинг

Как один из примеров BTL-маркетинга рассмотрим промо-акцию, а именно сэмплинг. Сэмплинг (от англ. sample – образец) – распространение бесплатных пробников, образцов продукции бесплатно или в качестве бонуса при покупке других товаров.

Целевая аудитория и задачи

При выборе такого формата рекламной кампании необходимо понимать, какая цель должна быть достигнута. В том числе надо понять, кто является потенциальным покупателем, и, исходя из этой информации, реализовывать проект. Пол, возраст, достаток, социальный статус – все это в конечном результате влияет на выбор площадок в индор, которые будут задействованы. Как правило, рекламодатели выбирают места либо с большой проходимостью, либо полностью соответствующие целевой аудитории. Рассмотрим сэмплинг на примере рекламы косметической продукции (гели для душа, крема, шампуни) для женщин и мужчин разных возрастов. Для того, чтобы понимать, где и как проводить кампанию, необходимо составить бриф и отметить основные моменты.

Основные задачи рекламодателя:

– Усилить позиции бренда на рынке

– Увеличить осведомленность о бренде

– Вызвать интерес покупателей к продукту, увеличить объем продаж.

Это обычные цели, результат которых любой клиент хочет увидеть после рекламной кампании.

Периодреализации проекта

В зависимости от того, кто является нашей целевой аудиторией, мы выбираем период проведения сэмплинга. Например, можно абсолютно безрезультатно раздавать образцы крема для девушек в июне в учебных учреждениях, в то время как в бизнес-центрах и торговых комплексах такая акция может иметь успех. Проводить рекламную кампанию мужского геля для душа в фитнес-клубах будет выгоднее в марте и апреле, нежели летом, когда большая часть аудитории занимается спортом на природе.

Помимо периода проведения рекламной кампании, нужно выбрать желаемые каналы распространения в индор: бизнес-центры, АЗС, торгово-развлекательные комплексы, фитнес-клубы, вузы и т.д.

Стоимость рекламной кампании

Следующие факторы влияют на формирование цены за один день сэмплинга:

  1. Необходимость оставлять на хранение материалы на точке;
  2. Осуществление охраны, уборки;
  3. Количество промо-персонала (осуществление сэмплинга силами сотрудников либо привлечение дополнительного персонала);
  4. Наличие оборудования (стойка, ролл-ап);
  5. Сама механика промо-акции.

Рассмотрим далее цены на примере различных промо-площадок:

Место проведения

Время проведения

Стоимость

Бизнес-центр

4 часа/день

500-2000 р./час

Фитнес-клуб

целый день, 

минимальный пакет – 3 дня

2000-5000 р./день

ТРК

4 часа/день

4000-15000 р./день

АЗС

4 часа/день

500-2500 р./день

  1. Бизнес-центр. В офисных зданиях стандартный промо-день (4 часа) лучше разделить на два периода: утренний (8:30-10:30) и вечерний (17:00-19:00). 
  2. Фитнес-клуб. Сэмплинг можно осуществить с помощью сотрудников рецепции при выдаче полотенец и ключей. 
  3. ТРК. Время проведения сэмплинга, как правило, ограничивается стандартным промо-днем в 4 часа. Стоимость зависит также от этажа и крыла ТРК, в котором находится промо-персонал. 
  4. АЗС. Пробная продукция выдается операторами станции вместе с чеком. 

Используйте возможность обратиться к потребителю путем сэмплинга и убедите его в качестве вашей продукции, дав возможность опробовать ваш товар.

Основные правила организации сэмплинга

  1. Тщательно подготавливайте промоутеров к акции, пусть они расскажут вам о продукте, сыграйте роль покупателя. Они должны уметь ответить на все вопросы, даже те, которые не касаются напрямую продукта. Если они будут «заикаться», вся акция пойдет насмарку.
  2. Правильно выбирайте место для такой акции, там, где ходит ваша целевая аудитория.
  3. Промоутеры должны быть красиво одеты и подходить по возрасту к вашей целевой аудитории.
  4. За промоутерами обязательно следите внимательно, корректируйте их работу в ходе акции, устраивайте разбор полетов в конце каждого акционного дня.
  5. Планируйте серии таких акций, эффект будет в разы сильнее.
  6. Придумайте интересный сценарий сэмплинг-акции, пусть у промоутеров будут креативные костюмы (1-2 героя, остальные консультанты).

Последний пункт, возможно, вызвал вопросы, поэтому несколько слов о креативном ходе в семплинг-акции. Производители шапок не просто проводили примерку в магазине, но еще и делали фото на память в шапке. Участников акции было огромное множество! Не просто раздаются пробники крема для обуви, а устроен пункт чистки обуви, каждый желающий мог поставить на подставку ногу, ему быстренько числили ботинки. Каждый, кто пробовал новый кефир, получал календарик с рецептом угощений, которые можно кушать на завтрак с кефиром. Каждый, кто попробовал конфету, мог за возврат фантика получить предсказание от «древнего» астролога. Так можно театрализовать любую презентацию и дегустацию, можно обратиться в специализированное агентство, которое разработает идею и воплотит ее в жизнь профессионально.

Надеюсь, что каждый бизнесмен оценил реальную пользу от сэмплинг-маркетинга теоретически, осталось только реализовать эти мероприятия практически и посчитать полученную прибыль. А уж удовольствие, которое вы получите от общения с покупателями в такой творческой форме, будет безмерным и вдохновит вас на следующие трудовые подвиги!

Е.Щугорева

Разновидности сэмплинга

Существует три основных направления сэмплинг-маркетинга. Предлагаем узнать о них побольше.

1. Раздача образцов продукции. Этот вариант предполагает, что товар находится в упаковке, что позволяет потенциальному покупателю взять его с собой и при необходимости употребить по назначению уже дома. Эта разновидность сэмплинга имеет название dry sampling. Раздавать образцы можно практически повсеместно: на улице, в метро, торговых центрах и т. д. Интересно, что можно увидеть такой сэмплинг в роддомах. Казалось бы, уставшим после родов женщинам совсем не до рекламы каких-либо товаров. Однако некоторые компании, в основном предлагающие продукцию по уходу за малышами, одаривают молодых мам целым спектром бесплатных образов продукции. Если женщина останется довольна качеством товара, то очень высока вероятность того, что в будущем она будет пользоваться продукцией именно этой марки.

2. Дегустация. Этот вид сэмплинга носит название wet sampling. В данном случае потенциальным покупателям предлагают попробовать продукцию непосредственно в местах продаж. Таким образом, повышается вероятность того, что если потребителю понравится вкус или другие характеристики продукции, он здесь же, на месте, сможет ее приобрести.

3. Хорека. Этот вид сэмплинга охватывает кафе, рестораны и гостиницы. В данном случае, как правило, продвигаются следующие товарные категории: кофе, безалкогольные либо алкогольные напитки, сигареты.

Oversampling

И децимацию и интерполяцию уже упомянули. Вроде бы и всё. Но в плагинах часто можно увидеть термин oversampling, да ещё и с каким-то настройками. Давайте разбираться.

Есть такое определение как «Дискретизация сигналов с запасом по частоте дискретизации». То есть применяется дискретизация сигнала на частоте, в несколько раз превышающей частоту Котельникова (предел Найквиста) с последующей децимацией. Вот она и называется в англоязычной литературе термином oversampling.

Например, возьмём сигнал с шириной полосы или самой высокой частотой B  = 100  Гц. Зная, что есть предел Найквиста берётся частота дискретизации в 2 раза больше — 200 Гц (100 × 2). При oversampling 4x частота дискретизации в четыре раза превышает частоту дискретизации 800 Гц (200 × 4). В итоге фильтр anti — aliasing работает в переходной полосе 300 Гц. То есть получается следующая формула (( s / 2) — B  = (800 Гц / 2) — 100 Гц = 300 Гц.

Что даёт такой тип дискретизации сигнала?

  1. Возможность использовать АЦП (аналого-цифровой преобразователь) с меньшей разрядностью.
  2. Возможность использовать более простой и дешёвый аналоговый фильтр для защиты от наложения спектров.
  3. Подобная передискретизация способна улучшить разрешение и отношение сигнал / шум, а также может помочь избежать наложения спектров и фазовых искажений путем ослабления требований к характеристикам фильтра сглаживания.

Аналогичный подход применяется и при восстановлении сигнала по его отсчётам.

Downsampling

Итак, при уменьшении частоты дискретизации упрощённо происходит два этапа:

  1. Цифровая фильтрация сигнала для того, чтобы удалить высокочастотные составляющие, которые не удовлетворяют пределу Найквиста для новой частоты дискретизации;
  2. Удаление или (отбрасывание) лишних отсчетов (сохраняется каждый N-й отсчёт). Здесь следует пояснить, что при программной реализации алгоритма децимации «лишние» отсчёты не удаляются, а просто не вычисляются (отбрасываются). При этом число обращений к цифровому фильтру уменьшается в определённое количество раз.

Так вот. Второй этап удаление или (отбрасывание) лишних отсчетов в англоязычной литературе иногда обозначают термином downsampling, что по сути может употребляться как синоним термина «децимация».

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий