"Нам необходимо найти баланс между контролем и приватностью"

Директор по аналитике корпорации Teradata Билл Фрэнкс — об укрощении «больших данных»

20 лет назад термина "большие данные" еще не существовало, хотя сами большие данные уже были в некоторых компаниях. Билл Фрэнкс, директор по аналитике корпорации Teradata, начинал как специалист по статистике. Автор книг "Укрощение больших данных" и "Революция в аналитике", он рассказал корреспонденту "Денег" Светлане Рагимовой, как шел вместе с профессией по пути трансформации.

Фото: Teradata

Как начиналась ваша карьера в области работы с данными?

— На моей первой визитке было написано: "статистик". Я — ветеран, настоящий представитель old school в этой области. Начинал еще тогда, когда даже термина data mining (глубокий анализ данных.— "Деньги") не было. Я умею строить модели для анализа данных, писать код. Конечно, я больше не пишу код, но мне это очень нравилось. После окончания школы использовал язык SAS. Когда появились базы данных, освоил SQL. Затем работал с Visual Basic, языками для создания web-приложений и так далее.

Какие изменения произошли за 20 лет? Что стало с вашей профессией?

— Когда я получил первую работу, не существовало отчетливого карьерного пути для специалиста в области статистики. Это была очень узкая специальность, редкая профессия. Лишь некоторые компании тогда только-только начинали вводить такие должности и задумываться, можно ли извлечь какую-то пользу из имеющихся данных. Так что мне было вообще непонятно, как развивать карьеру. Мне очень повезло, что прогресс пошел по такому пути и моя специальность стала настолько востребованной. Тогда я думал лишь о том, что могу заниматься статистикой и получать от этого удовольствие.

Когда я только начинал работать с данными, возможности были крайне ограничены. Мы с данными мало что могли делать. Это было очень дорого, невероятно сложно технологически, часто требовало привлечения внешних вычислительных ресурсов. Так что мы могли заниматься лишь теми задачами, которые могли принести действительно серьезный экономический эффект, чтобы окупить затраты.

Сегодня компании могут все анализировать внутри корпоративных систем, строить продвинутые модели на собственных вычислительных мощностях, экспериментировать, проверять множество гипотез. И все это очень быстро, в легко масштабируемых системах, таких как Teradata. Эти платформы и системы развиваются и способны обрабатывать все больше данных с каждым годом. Так что мы очень далеко ушли от того, что было доступно 20 лет назад. Мы тогда работали с самыми базовыми моделями: наблюдали за частотностью каких-то событий, пытались понять, когда произойдет следующее. Это была самая элементарная статистика, анализ простейших закономерностей. И даже это могло потребовать недели вычислений. Сейчас мы можем использовать самые продвинутые сложные модели и получать результаты очень быстро, применять извлеченные знания сразу же. Анализ данных сейчас — это непрерывный процесс, который происходит полуавтоматически. Раньше мне приходилось все делать руками.

Чем вы занимались на первом месте работы?

— Я работал в AT&T, это была крупная государственная телефонная компания, в 80-х — монополист, никаких других игроков на рынке не было. Потом регуляторы стали действовать так, чтобы создать возможности для конкуренции на этом рынке. Примерно тогда я и пришел в AT&T. Мы разработали самые простые модели по оттоку абонентов, хотя у компании тогда все еще было 80% рынка. Но эта модель оттока была разработана не с целью удержания бизнеса, а чтобы контролировать процесс перетока абонентов в другие компании на рынке, дать возможность альтернативным операторам вырастить бизнес. Это была одна из причин, почему я покинул компанию. Сложно работать на организацию, стратегия которой состоит в том, чтобы терять долю рынка. Это совершенно специфические среда и стиль управления. Нет амбиций, нужно просто сохранять все в рабочем состоянии, нет рыночной мотивации. Менеджмент и стиль управления соответствующие. И все же я проработал там около четырех лет и получил прекрасный опыт.

То есть телекомы стали анализировать данные одними из первых?

— Да, и причина заключается в том, что 20 лет назад мало какие компании, кроме телекомов, вообще собирали данные. Если взглянуть на ритейлеров, у них не было такой необходимости. Они не сохраняли данные о каждой трансакции, как телекомы. Бизнес-модель операторов изначально подразумевала необходимость отслеживать каждый звонок, потому что от этого зависит размер оплаты. В то время затраты операторов на аппаратно-программные информационные системы были запредельно высокими. Они строились на мейнфреймах и на дорогих хранилищах данных. Но выбора у телекомов не было, потому что абонентам выставлялись счета на основе этих данных, от этого зависели финансовые показатели бизнеса.

Как насчет госучреждений? Они активно используют аналитику данных?

— Государственные организации действительно собирают и хранят огромное количество информации. Но часто это плохо интегрированные между собой данные. К тому же анализу и извлечению пользы из этих массивов мешают законодательные барьеры. Мы общаемся с представителями власти, даем рекомендации, как они могли бы использовать свои возможности и доступ к информации. Но даже в США нам часто говорят, что вот это мы не можем делать, так как это ограничено вот этой статьей закона. Иногда, чтобы получить возможность провести анализ, требуется подписать разрешение в трех инстанциях. Причем это разрешение будет распространяться только на одного-единственного оператора базы данных или конкретного ученого, работающего с данными. Так что тут необходимо хорошо понимать, зачем проводить тот или иной анализ, какую пользу это может принести. Ситуация, конечно, постепенно меняется, появляется все больше возможностей для анализа государственной статистики. Но пока это не поставлено на поток, как во многих крупных частных компаниях.

Что вы думаете о среднем и малом бизнесе, будет ли он когда-нибудь использовать аналитику?

— Это было бы очень интересно, потому что сегодня только очень крупные компании могут себе позволить использовать сложные аналитические инструменты, построенные на дорогом ПО и оборудовании. Таким образом, они могут управлять своими ценами и более успешно конкурировать на рынке, снижать издержки. Я думаю, что небольшие компании тоже вступят в эту игру благодаря появлению облачных средств для обработки данных — такие предлагают Teradata и некоторые другие компании. Сервисы, построенные по типу DaaS (Data as a Service),— это как раз возможность для компаний среднего размера. С их помощью они могут передать массивы своих данных в систему, а провайдер услуги, например Teradata, проанализирует их и выдаст конкретные результаты анализа, которые дальше могут использоваться непосредственно в бизнесе заказчика. То есть в этом случае не нужно покупать аналитическую платформу и закупать или арендовать вычислительные мощности, нанимать ученых, работающих с большими данными. Стоимость таких сервисов зависит от объемов передаваемых на анализ данных, так что для небольших компаний это может быть совсем недорого. Оплата также может производиться за конкретный результат. Мы сейчас активно развиваем эти сервисы.

Как будет развиваться рынок анонимизированных данных, биржи данных о клиентах разных компаний?

— Это очень интересная область. В теории действительно одни компании могли бы покупать анонимизированные данные у других и получать какую-то пользу от этого. На практике, например, запрещено продавать данные о моих перемещениях по городу третьим лицам. А именно это было бы интересно, например, страховым компаниям, ритейлерам и много кому еще. Можно, конечно, продавать деперсонализированные данные о том, как движутся потоки людей по городу. Это может принести пользу — например, помочь выбрать место для нового магазина.

Также данные могут использоваться для передачи третьим лицам не как товар, а как дополнительная информация, помогающая продавать что-либо.

Как думаете, может, в будущем было бы честно платить конкретным людям за согласие на разглашение их данных?

— Мне нравится эта идея, и на эту тему сейчас ведутся дискуссии. В настоящее время большая часть данных накапливается у компаний, представляющих товары и услуги. И все больше развивается рынок агрегированных данных, которые собирают информацию из самых разных источников. Было бы здорово, если бы человек сам мог решить, что вот эти данные он готов раскрыть вот этой конкретной компании, если та будет ему платить или снизит стоимость своих услуг. Либо я хочу платить за то, чтобы мои данные никак не использовались. Это был бы справедливый обмен ценностными предложениями. Я бы хотел, чтобы такая практика возникла в реальности. К примеру, в случае с Google — они предоставляют различные сервисы бесплатно, но при этом используют данные пользователей. На их основе продают рекламу, извлекают прибыль. Я бы хотел иметь возможность платить Google, скажем, $10 в месяц за то, чтобы компания не использовала мои данные, не передавала их третьим лицам и вообще удаляла из хранилищ. То есть это должно работать в обе стороны. Gmail анализирует, к примеру, содержимое частной переписки и на основе этого показывает рекламные объявления.

Я бы также хотел, чтобы пользователи сами могли выбирать, кто и как использует их данные. Сегодня частная жизнь и анонимность становятся практически невозможными. К примеру, на дорогах уже устанавливают камеры, которые распознают лицо. Так что невозможно проехать без того, чтобы быть обнаруженным "большим братом". Понятно, что это инструмент для обеспечения безопасности на дорогах — нарушитель не сможет теперь сказать, что его машину угнали, будет ясно, что он был за рулем в момент аварии. Но здесь нужно знать меру. Нам еще много чего нужно сделать в сфере регулирования, чтобы законодательно описать правила использования данных: кто и в какой степени может получать доступ к информации людей, как он ее может использовать и так далее. Нам необходимо найти баланс между контролем и приватностью и уважать стремление людей, которые не хотят разглашать всю свою информацию.

На каком поле будут работать в дальнейшем специалисты по анализу данных?

Я думаю, что речь пойдет о непосредственном анализе данных с сенсоров, о предиктивной аналитике. Важно будет научиться выявлять повреждения оборудования и возможные аварии еще до того, как они случились. Уже есть некоторые компании, которые работают в этом направлении. К примеру, мы помогаем компании NCR собирать данные о состоянии банкоматов и потенциальных проблемах, которые в них могут возникнуть. Если банкомат начинает демонстрировать признаки того, что вскоре выйдет из строя, компания посылает ремонтника проактивно. Это помогает сохранить компании кучу денег. Моя команда собирается посвятить много времени именно этому направлению — анализу данных с сенсоров.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...