Данные – это отчет о прошлом. Используя исторические данные, мы на самом деле можем предсказывать будущее. Мы оперируем data, чтобы понять причины того, что произошло в прошлом. Так как это поможет нам сказать хоть что-то о грядущем?
Ключевое предположение, лежащее в основе большей части прогнозирующей аналитики, заключается в том, что история – это постоянно повторяющийся процесс. Иными словами, имея точные данные из прошлого, мы запросто можем предсказывать будущее.
Вот и специалисты Adform стараются извлекать из проведенных кампаний инсайты, позволяющие понять, что заставит людей кликать по рекламным объявлениям в будущем. В первую очередь они пытаются дать характеристику профилям cookies (посетителям сайта, которые активно кликают по рекламе). Точно определив ключевые характеристики «кликеров», можно отделить их от тех cookies, которые никогда не переходят по объявлениям. С такими знаниями можно ответить на главный вопрос: «Собирается ли этот пользователь кликнуть?». Ведь все мы очень зависимы от своих привычек, нравится нам это или нет.
Что заключено в данных?
Исследователи Adform собирают и объединяют информацию, полученную от каждого отдельно взятого показа или заказа. Собранные данные об особенностях пользователей включают профили аппаратных средств, домены и логи, время посещения и местоположение показа рекламы. Весьма критичным для разработки модели является хранение данных о том, привел ли показ к клику. А что касается кампаний, которые ориентированы преимущественно на брендинг, то здесь очень важно получить сведения о том, приводит ли показ к активным действиям или нет.
В таких компаниях, как Adform, обрабатывают огромное количество запросов в секунду, и это становится источником большого количества данных. С учетом объема, скорости обработки и разнообразия полученной информации такие компании автоматически попадают в сферу Big Data.
Выбираем образцовую модель
Задача поставщика данных состоит в том, чтобы разработать алгоритм, который определяет связь между основанной на cookie информацией профиля и дальнейшим действием пользователя – кликнул ли он по рекламному объявлению.
Учитывая объемы cookie и диапазон характеристик профилей, это становится довольно серьезной проблемой. Просто подумайте, с каким количеством доменных имен приходится сталкиваться компаниям, предлагающим услуги по размещению рекламы в интернете! Тут нужно отталкиваться от принципа, что более сложное решение не (обязательно) дает лучшие результаты. Бритва Оккама и бережливость!
В Adform обычно придерживаются так называемых обобщенных линейных моделей, особая ценность которых заключается в логистическом регрессе. Линейная модель проста как в концептуальном плане, так и когда дело доходит до обучения. Главный эффект от различных характеристик в профиле cookie – это суммирование всех параметров для создания прогноза.
Логистическая часть всей этой истории состоит в том, что предсказывается не просто число, а что-то, что является или не является кликом. Именно это принимает во внимание логистический регресс. Это фактически дает цифру, которую можно интерпретировать как вероятность того, что данный пользователь кликнет по рекламе.
Профессионалы стремятся к тому, чтобы максимально упростить модель, сократив набор характеристик пользователей, оставив только те, которые могут пригодиться в создании прогноза и для отделения потенциальных кликов от некликов. Это важно, потому что в случае сложного моделирования с многочисленными параметрами высока вероятность возникновения неразберихи (случайных, неструктурированных изменений) в данных. Это может негативно сказаться на будущих исследованиях.
Прогнозирование
Нильс Бор когда-то сказал, что предсказывать очень сложно, особенно если речь идет о будущем. Конечной целью алгоритма является определение того, сколько стоит место, отводимое под рекламное объявление: насколько рекламодатель готов принять участие в торгах, чтобы показать свое объявление этому cookie. Модель опирается на данные о кликах и некликах и эффективно определяет вероятность того, что пользователь посмотрит рекламное объявление, используя логистическую трансформацию. Затем показатель вероятности клика умножается на расчетную цену. Затем полученная ожидаемая ценность показа передается на рекламную биржу RTB.
Так насколько далеко мы можем заглянуть в будущее? Это зависит от того, что мы знаем о прошлом. Одно можно сказать наверняка: большие данные невероятно важны для автоматизированных торгов.