Глубокое погружение
Самые ценные полезные ископаемые сегодняшнего времени отнюдь не углеводороды, а информация. Наблюдать за клиентами и хранить данные об их предпочтениях, поведении и покупках научились давно. Но лишь недавно компьютеры стали достаточно сложными для того, чтобы анализировать эту информацию. Рынок обработки больших данных стоит на пороге большого роста: согласно прогнозу аналитиков Pierre Audoin Consultants, в 2016 году его объем составил €20 млрд — почти в семь раз больше, чем в 2010 году.
Умные продажи В 2008 году в Швеции появился сервис по мониторингу будущих событий под названием Recorded Future. Всего за три года работы компания достигла оборота более чем в $100 млн в год, а среди ее клиентов оказались участники рейтинга Fortune 500, государственные структуры и крупные финансовые корпорации. По сути, команда сервиса примерно из 20 человек занимается тем, что поддерживает и дорабатывает ПО, собирающее данные из открытых источников о событиях, которые пока только планируются и должны произойти в будущем. Это может быть что угодно: от расписания встреч Барака Обамы до анонсов новых смартфонов. Все зависит от задач клиента. Вариантов использования сервиса — масса. Самый очевидный — для увеличения заработков в игре на бирже.
При этом команда Recorded Future состоит не из экономистов или политиков, а в основном обладателей ученых степеней в области компьютерных наук. Сервис, который они создали, и есть замечательный пример использования технологий по добыче информации (data mining).
Директор отделения аналитических технологий компании ФОРС Евгений Курилович объясняет: «Термин data mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то факторов)». Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока. Подобным образом могут быть выявлены самые необычные и даже парадоксальные взаимосвязи.
Один из примеров использования этого класса технологий касается ритейлера Walmart. Компания считается пионером в практическом применении данного метода. Анализ огромных массивов данных производится ритейлером для налаживания взаимоотношений с поставщиками. Еще в 1995 году этот розничный гигант начал собирать информацию обо всех состоявшихся покупках в 2900 своих магазинах и складировать ее в систему хранения. Доступ к данным и аналитике по продажам конкретных продуктов получили все 3500 поставщиков ритейлера, которые до сих пор используют эту возможность для выявления привычек и предпочтений клиентов на уровне конкретных магазинов. Это позволяет составлять поставки так, чтобы максимально точно соответствовать вкусам покупателей, а также правильно выставлять товары на полках, проводить локальные промо-акции и т. д.
Помимо очевидного анализа покупательской корзины, который помогает вырабатывать общую стратегию создания запасов товаров и их раскладки в торговых залах, дата-майнинг также позволяет исследовать временные шаблоны, благодаря которым сети розничной торговли могут, к примеру, определить недельную сезонность товаров или подсчитать, через какое время человек, купивший фотоаппарат, придет за новыми батарейками. С помощью дата-майнинга также можно создавать прогнозирующие модели, которые позволяют на базе полученных данных разрабатывать точно направленные мероприятия по продвижению товара.
Тот же Walmart сейчас использует этот метод для проведения так называемого market-basket анализа, то есть выявления тех продуктов, которые покупатели приобретают совместно, за одну покупку, и впоследствии расставляет эти товары самым удобным для покупателя образом.
Подобного рода интеллектуальным анализом данных занимается и крупнейший в мире интернет-магазин Amazon, который использует полученную информацию для составления персональных и привлекательных для пользователей предложений.
Вершина айсберга Потенциал использования средств data mining в бизнесе огромен. Евгений Олейник, руководитель департамента HP Autonomy/IM в странах Центральной и Восточной Европы, рассказывает, что на сегодняшний день 85% всех данных в мире составляют неструктурированный поток информации и только 15% данных — структурированный. С каждым годом доля структурированных данных в этом потоке уменьшается: все больше людей используют социальные сети, в городах все больше появляется камер видеонаблюдения. Люди используют одновременно множество разных каналов коммуникации, и возникает необходимость определить взаимосвязь между отдельными информационными событиями, получаемыми из разных источников. «Сегодня организации могут принимать бизнес-решения только за счет анализа 15% структурированных данных. Если организация могла бы использовать и анализировать все 100% имеющихся данных, это позволило бы ей принимать более грамотные бизнес-решения на основе всей существующей информации»,— говорит господин Олейник. К примеру, продукт НР Autonomy позволяет получать представление о том, что содержится в 100% информации, и определять взаимосвязи между разными источниками.
Дмитрий Шепелявый, директор департамента технологических решений SAP СНГ, рассказывает, что дата-майнинг возник и развивается на базе статистики, распознавания образов, методов искусственного интеллекта и теории баз данных. Используемые сырые данные могут быть совсем разными, но применять методы глубинного анализа имеет смысл только к достаточно большим массивам информации. Это могут быть компании, работающие в сфере розничной торговли, банковской отрасли, телекоммуникационной, страховой индустрии и т. д. Безусловно, эти же методы анализа данных могут быть полезны госсектору. Государственные органы могут, к примеру, таким способом выявлять лиц, уклоняющихся от уплаты налогов, или проверять таможенные грузы и т. п. Та же SAP предлагает несколько решений для дата-майнинга — как визуальных данных (SAP BusinessObjects Explorer), так и статистических (BusinessObjects Predictive Workbench).
Схватить за руку Сегодня корпорации хотят получать аналитику, влияющую на их бизнес, очень быстро, в идеале — в режиме реального времени. Технологии Real-time Data Management типа SAP HANA способны обеспечить анализ громадных объемов данных практически в онлайн-режиме. Oracle Advanced Analytics, составной частью которого является Oracle Data Mining, также позволяет создавать приложения для анализа в реальном времени и стратегического планирования в таких областях, как потеря и приобретение клиентов, подготовка рекомендаций по продукции и предупреждение мошенничества. Этим инструментарием уже активно пользуются многие крупнейшие глобальные корпорации — BMW, Philips IP&S and Treparel, Xerox, Walter Reed Medical Center, NTT Comware и другие.
Не так давно крупный европейский банк, действующий в России и СНГ, столкнулся с кражей 150 тыс. руб. со счета клиента за 15 минут из 12 разных банкоматов. Если бы компания использовала решения дата-майнинга, такой ситуации удалось бы избежать. Данная технология активно применяется финансовыми организациями для выявления и предотвращения случаев мошенничества. В страховых компаниях это дает возможность определять, является ли заявка на возмещение ущерба мошеннической или нет. Считается, что от 10% до 20% всех требований на выплату страховок фабрикуются мошенническим путем. Например, если машина куплена в другом регионе и попала в аварию практически сразу после того, как была застрахована, случай с высокой долей вероятности будет включен в выборку для дальнейшего анализа и проверки. Генеральный директор SAS Россия/СНГ Валерий Панкратов рассказывает, что в Бельгии государственная служба по борьбе с мошенничеством с помощью аналитических решений выявляет целые преступные группы физических и юридических лиц, которые совершают махинации с возмещением экспортного НДС, в результате ежегодно предотвращаются необоснованные выплаты на сумму около €80 млн. На основе уже выявленных случаев мошенничества строятся профили, или набор правил, по которым аналитическая система автоматически определяет, является ли новый случай мошенническим.
Олег Данильченко, руководитель направления data mining, IBM в России и СНГ, говорит, что методы, предполагающие применение средств data mining, разительно отличаются от традиционных подходов к обнаружению мошенничества тем, что выходят далеко за рамки простых отчетов об исключительных ситуациях. Эти средства выявляют подозрительные случаи на основе шаблонов данных, позволяющих сделать предположение о мошенничестве.
Также дата-майнинг актуален при принятии решения о выдаче кредита, в том числе и на основе анализа информации о клиенте в социальных сетях и других открытых источниках. Классическое применение — это кредитный скоринг, то есть оценка платежеспособности заемщика и расчет вероятности невозврата кредита. Для этого анализируются данные о клиентах, которым ранее выдавали кредиты и у которых уже есть кредитные истории; эта информация обрабатывается алгоритмами data mining, в них выявляются скрытые неочевидные закономерности, и на их основе строится математическая модель, которая помогает определять, кому из потенциальных заемщиков выдавать кредит, а кому отказать. Таким образом, сбор данных помогает прогнозировать кредитные риски и автоматически принимать решения о выдаче кредитов. «Эту задачу решают банки по всему миру, в том числе и российские,— говорит господин Панкратов.— У нас, например, были проекты внедрения решений для кредитного скоринга в Сбербанке, ВТБ 24, Банке Москвы, Росбанке, Юникредит-банке».
Господин Шепелявый рассказывает об успешном внедрении дата-майнинга в Bank of America, девиз которого — принесение как можно больше пользы каждому клиенту. С помощью специальных инструментов глубинного анализа данных банк проанализировал профили клиентов, и теперь вместо прослушивания стандартного маркетингового предложения от специалистов колл-центров клиенты получают индивидуальные предложения.
Снежный телеком В России продукты дата-майнинга пока не слишком распространены. Тем не менее это не повод для пессимизма. Максим Андреев, заместитель директора департамента информационных технологий и руководитель направления бизнес-приложений компании КРОК, говорит: «Принято считать, что в России распространение технологий лет на пять отстает от Запада. Но именно в случае с data mining мы идем в ногу с мировым ИТ-рынком. Конечно, в России пока не так много крупных проектов, но первопроходцами в этом направлении были именно отечественные разработчики. Более того, методы data mining использовались еще в Советском Союзе, например, для поиска полезных ископаемых: чтобы спрогнозировать наличие ископаемых в той или иной области, использовались данные, полученные в ходе геологоразведки. Кроме того, на российском рынке уже давно есть завершенные проекты по прогнозированию спроса или оттока клиентов, причем выполненные не по стандартной схеме». По словам господина Андреева, обычно вначале компания автоматизирует бизнес-процессы, а уже потом внедряет соответствующие системы. Отечественные игроки «пропустили» этап автоматизации, но несмотря на это, их проекты были довольно успешными, хотя и не очень громкими.
Сергей Алмазов, руководитель направления «Системы бизнес-анализа и мобильные решения» компании IBS, комментирует: «Я бы не сказал, что есть высокий интерес в России, подкрепленный соответствующей долей рынка. Хотя отдельные применения таких технологий, безусловно, были. Например, есть примеры использования инструментов data mining для анализа оттока абонентов в телекоме».
Сергей Борисов, старший менеджер и руководитель практики «Телекоммуникации, медиа и высокие технологии» департамента управленческого консалтинга Accenture, говорит о том, что первопроходцами дата-майнинга стали именно телеком-операторы, впервые применившие стратегию таргетированного маркетинга. Имея возможность собирать информацию о звонках, сообщениях и прочих видах коммуникации своих абонентов, они анализировали огромные пласты информации, выявляя закономерности в поведении клиентов, а затем предлагали услуги, отвечающие их потребностям. К примеру, установив, что определенный абонент чаще всего звонит на два-три конкретных номера, сотовый оператор мог предложить такому клиенту подключить услугу «любимые номера» или сменить тариф на более выгодный. «В связи с отсутствием технологий, позволяющих быстро обрабатывать огромные пласты информации и оперативно реагировать на потребности клиента, очень часто предложения услуг, пусть и выгодные, поступали с опозданием, навязчивые звонки бывали неактуальными или поступали не вовремя и вызывали раздражение. Таким образом, количество тех, кто принимал в итоге предложение, было небольшим и колебалось примерно на уровне 3-5%,— рассказывает господин Борисов. Тем не менее ситуация активно меняется к лучшему: за прошедшие годы «уровень принятия» вырос до 10%, а для отдельных отраслей даже превысил эту отметку.
По словам Олега Данильченко, сейчас практически весь российский рынок телекоммуникаций использует технологии интеллектуального анализа данных, что позволяет прогнозировать уход клиентов, их потребности. Так, «Вымпелком СНГ» оптимизировал маркетинговые кампании с помощью IBM SPSS. «Телеком идет впереди планеты всей, потому что они применяют не только data mining, но и технологии анализа социального графа (SNA), которые позволяют дополнять профиль клиента информацией об основном круге его общения, и не просто прогнозировать уход клиента на основании его трансакций, а прогнозировать переход на SIM-карту другого оператора, базируясь на звонках из его постоянного круга общения»,— рассказывает он.
Уход абонентов к конкурентам — головная боль для маркетологов телекоммуникационных компаний. По данным экспертов, годовой отток клиентов на российском телеком-рынке достигает 40%. Без инструмента, помогающего прогнозировать эту цифру и предсказывать действия клиентов, нет возможности применять превентивные меры по их удержанию. Особенно это актуально в свете активизировавшихся обсуждений возможности сохранения телефонного номера при смене оператора.
«Привлечение новых клиентов является одним из основных приоритетов кратко– и среднесрочной перспективы для маркетологов телекоммуникационных операторов. Однако для бизнеса операторов, занимающих устоявшееся положение на рынке, наибольших усилий требует удержание доходных клиентов»,— рассказывает господин Данильченко. Проблема, стоящая перед менеджерами телекоммуникационных компаний, заключается том, что вовремя предсказать отток абонентов и его причину бывает крайне сложно. В связи с этим разработка рентабельной системы мотивации для удержания абонентов становится еще более сложной задачей. Но самой сложной задачей является создание и реализация законченной системы управления жизненным циклом абонентов, которая позволит предусмотреть все взаимодействия между клиентами и компанией и тем самым увеличить до максимума прибыль от потребителя (CLTV).
Поэтому современные провайдеры телеком-услуг, и в особенности те, которые устанавливают стандарты и их применение для всей отрасли, нуждаются в применении аналитических методов для всех возможных контактов с абонентами и событий жизненного цикла.
Отблеск грядущего Количество информации в мире растет катастрофическими темпами. Нет сомнений в том, что решения для анализа крупных массивов данных будут востребованы в ближайшем будущем. «На текущий момент конкретных ярких примеров не видно, хотя предпосылки создаются,— рассуждает господин Алмазов. — Например, ни для кого уже не секрет, сколько камер в Москве на дорогах и в подъездах. Это большие объемы информации, которые было бы полезно обрабатывать. Для обработки информации такого плана, в том числе видео, техническая возможность есть. Дело за инициативой».
Александр Пинский, директор по развитию бизнеса компании Teradata, рассказывает, что обычно компании проходят по стандартному пути развития бизнес-аналитики в несколько этапов. Сначала автоматизируется отчетность, что позволяет ответить на вопрос, что происходит в компании. На втором этапе развивается анализ данных, который дает ответ на вопрос,»почему это происходит. На третьем этапе формируется прогнозирование, чтобы узнать, что произойдет в будущем. На четвертом этапе операционализации развивается аналитика реального времени, которая позволяет понять, что происходит прямо сейчас, и без задержки принимать решения и реагировать на события. В конце концов, на последнем этапе формируются активные хранилища, позволяющие реализовать весь набор аналитических инструментов, включая моделирование, прогнозирование, реакцию на события и т. д. в режиме реального времени или максимально приближенному к нему.
Объем нестандартных и аналитических запросов к данным нарастает относительно традиционной отчетности по мере развития аналитики. А именно в этой области и востребован дата-майнинг, который позволяет соединить и покрутить данные так, как это нужно пользователю, вне прокрустова ложа заранее заданной отчетности.
«Бум бизнес-аналитики на Западе начался уже довольно давно, в том числе и применение дата-майнинга там распространено весьма широко,— говорит господин Пинский.— Поскольку в России сейчас тоже идет бурный рост интереса к аналитике и развитию бизнес-аналитики, причем большинство предприятий находится на начальных этапах этого развития, где дата-майнинг является одним из самых востребованных инструментов, то и активно растет рынок соответствующих решений».
Как говорит Сергей Борисов, технологии дата-майнинга постоянно совершенствуются. Сейчас их отличают три ключевые особенности: возможность сбора и обработки очень большого объема данных, объединение данных из разных источников, а также возможность отреагировать на потребности клиентов в реальном времени. К примеру, с помощью сервисов геолокации возможно отследить перемещения человека и предложить ему актуальную скидку как раз в тот момент, когда он проходит мимо интересного ему магазина. Получая данные о его интересах из соцсетей, обрабатывая геолокационные координаты, мы формулируем и посылаем запрос в реальном времени — такой запрос попадает именно к конкретному человеку, учитывает его потребности и желания, а значит, велик шанс, что он будет принят положительно.
Евгений Курилович уверен, что на сегодняшний день дата-майнинг — единственный доказавший на практике свою состоятельность инструмент, который позволяет осуществлять автоматизированный анализ больших объемов данных. «Обычно статистические методы и OLAP используются для проверки заранее сформулированных гипотез. А технологии data mining позволяют как раз сформулировать такую гипотезу, что само по себе гораздо сложнее, поскольку далеко не все закономерности очевидны с первого взгляда»,— говорит господин Курилович.
Более того, по словам господина Данильченко, из всех информационных технологий, существующих на мировом рынке, соотношение цены внедрения лицензий к отдаче от инвестиций у технологий DM наибольшее: ROI в среднем достигает 1000%.
Одно из важнейших преимуществ подхода дата-майнинга состоит в том, что методом могут пользоваться люди, не имеющие специального математического образования. И все же без подготовки рядовые сотрудники вряд ли справятся с такими продвинутыми инструментами. Поэтому в этом году на факультете ВМК МГУ имени Ломоносова начали преподавать курс по интеллектуальному анализу данных, который был разработан совместно преподавателями факультета и компанией SAS. Этот курс включен в обязательную академическую программу подготовки магистров на факультете. Он имеет четкую практическую направленность: студенты будут работать с реальными инструментами построения математических моделей для решения конкретных прикладных задач.