Коротко

Новости

Подробно

Фото: Юрий Мартьянов / Коммерсантъ   |  купить фото

Роман Постников: мы находимся на пороге грандиозных изменений производительности труда

Один из основателей компании oneFactor — о технологической революции и прорывах в сфере Big Data

Журнал "Коммерсантъ Деньги" от , стр. 14

Собираетесь построить карьеру в дорожной полиции, стать переводчиком, водителем или оператором колл-центра? Подумайте еще раз — велика вероятность, что скоро этих профессий не будет. О технологической революции и прорывах в сфере Big Data с корреспондентом "Денег" Александром Зотиным беседовал один из основателей компании oneFactor.


Профессионалы не очень любят термин "большие данные". Почему?

— На мой взгляд, потому что Big Data — слишком широкое понятие, каждый понимает здесь что-то свое. Изначально этот термин активно продвигали компании, производящие оборудование для хранения данных. Лет 20-25 назад анализ сегодняшних многопетабайтных массивов данных был в одном ряду с телепортаторами, аннигиляторами, бластерами и другими технологиями из книжек с научной фантастикой. В первую очередь из-за отсутствия технологий дешевого хранения и обработки данных такого объема.

Однако с ростом производительности вычислительных систем "большие данные" быстро превратились в мощную индустрию объемом $45 млрд и годовым приростом в 20-30%.Почему? Потому что очень серьезный интерес к аналитике данных всегда существовал как у бизнеса, так и у государственных и муниципальных структур.

Сейчас Big Data — это в первую очередь история не про умелое хранение и обработку, а про алгоритмы и интерпретацию. Хотя, безусловно, уже сегодня глобально объем доступной информации оценивается в 8 зеттабайт (зеттабайт — 1 трлн гигабайт), а к 2020 году он вырастет в пять раз. И все эти данные человечество жаждет где-то сохранить. Но все же основные прорывы в нашей индустрии будут связаны именно с алгоритмистикой и ростом доступности облачных вычислительных ресурсов.

Если ли в индустрии "больших данных" какое-то направление, которое можно назвать наиболее эффективным? Или хотя бы наиболее эффектным?

— Думаю, что это машинное обучение (Machine Learning). Или, обобщенно,— построение систем искусственного интеллекта. Очень простой пример — это помощники в современных мобильных операционных системах Siri или Google Now. Но с позиций уровня, которого достигли алгоритмические возможности, например, распознавания речи, Siri — уже практически пройденный этап.

Уже сейчас очевидно, что в скором времени в ряде профессий основными работниками будут совсем не люди, а роботы, с тем самым искусственным интеллектом. И это абсолютно не фантастика. Прежде всего это профессия переводчика. Да, пока компьютер переводит не идеально, но алгоритмы совершенствуются с огромной скоростью, и сегодня компьютер понимает даже заплетающуюся речь. Пройдет лет пять, и машина сможет осуществлять замкнутый цикл на уровне профессионального переводчика: распознавание речи, перевод с учетом языковых особенностей и генерацию результата в речь или текст. Уже скоро на порядок более совершенные родственники Siri проникнут не только в смартфоны, но и в привычные бытовые устройства — телевизоры, выключатели света, пылесосы, электрические плиты. А это уже что-то из книжек о будущем, не так ли?

О перспективах распознавания речи говорилось еще лет 20-30 назад. Что препятствовало достижению этой цели и почему она почти достигнута сейчас?

— В течение последних десяти лет в нескольких индустриях произошли свои локальные революции, что в сумме дало возможность сделать то, о чем мы говорим. Надо отметить огромный прогресс в инструментах и стоимости сбора и хранения данных. Грубо говоря, собирать и, главное, анализировать данные стало проще и значительно дешевле.

Собранная воедино информация позволила научиться выявлять в ней закономерности и взаимосвязи. Эти взаимосвязи специалисты научились правильно и быстро интерпретировать, что, конечно же, невозможно без роста вычислительных возможностей "железа". Уберите в этом списке что-то одно, и результат не получится.

Простой пример. Хранение одинаковых статей в интернете на разных языках позволяет машине сравнивать тексты и находить присущие каждому языку особенности, систематизировать их и применять для построения систем автоматического перевода. Так на основе примеров, которые есть в электронном мозге машины, осуществляется перевод, близкий по качеству к человеческому. А это уже очень недалеко от принципов работы человеческого мозга. Человек ведь переводит не только слова — он учитывает возникающие ассоциации, образы, эмоции, даже интонацию говорящего. Иронию, сарказм и так далее.

Кого скоро заменят роботы помимо переводчика?

— Мы находимся на пороге грандиозных изменений производительности труда в самых разных отраслях. Простой пример — ответы на звонки в контактные центры будут практически полностью автоматизированы. Значительное количество компаний получат за счет виртуальных консультантов настолько существенную экономию, что просто не смогут от них отказаться. Просто представьте: вы можете принимать сколько угодно звонков, ваши сотрудники не требуют зарплаты, не болеют и не уходят в декрет.

В распознавании речи сегодня нет ничего сложного, подобные сервисы работают у "Аэрофлота", "МегаФона" и некоторых других компаний. Эти сервисы постоянно совершенствуются, самообучаются. Уже скоро на слух будет довольно сложно определить, кто отвечает — живой оператор или виртуальный. Для стран вроде Индии или Египта, где колл-центры являются значительной частью местной экономики, вытеснение людей из этой профессии может стать большой проблемой. Потому что освободившихся людей нужно будет чем-то занять.

В целом же, ситуация, когда человек отдает команду голосом и машина ее точно выполняет (разумеется, оценивая, кто эту команду отдает и имеет ли он на это право), будет обычным делом через пять-десять лет, не более. Просто потому, что очень много заказчиков и потенциальных потребителей этой технологии.

Есть среди направлений "больших данных" что-то не менее значимое, чем замена людей машинами?

— Еще одно направление, активно развивающееся в последнее время,— анализ геолокационых данных и рекомендательные системы на их основе. Геолокационную информацию, безусловно, собирали и раньше — давно существуют датчики на входах в магазины и камеры на дорогах, регистрирующие поток автомобилей их номера. Но все эти камеры и датчики, конечно же, не давали возможности понять общую картину, потому что где-то они были, где-то — нет. Это направление обязано развитием в основном распространению сотовых телефонов.

Например, изучая изменение нагрузки на базовые станции в течение определенного времени, можно очень достоверно измерить не только автомобильный, но и пешеходный поток. Понимание полной картины перемещения транспортных потоков позволяет полностью изменить принципы организации транспортной сети, да и градостроительства в целом, сделать город более удобным для жителей.

В компании oneFactor мы как раз занимается созданием платформы и различных сервисов "больших данных", таких, как машинное обучение, которые обрабатывают и анализируют в том числе геолокационную информацию. Объем которой у нас уже перевалил за 3 петабайта. В режиме реального времени мы видим загрузку транспортных потоков городов, видим не только точное количество жителей на улицах городов и районов, но и как оно меняется по часам. Кстати, полученные результаты могут применяться для разных задач — не только транспортного или градостроительного характера. В частности, они пригодятся для точных экономических расчетов, например при выборе локации торгового центра.

Но для этого было бы хорошо знать, например, выручку будущего торгового центра.

— Не только выручку, но и средний чек и его структуру. Зная это, владельцы будущего торгового центра могут точно оценить, какие бренды приоритетны с точки зрения аренды площадей. Все просто — новый торговый центр всегда оттягивает покупателей от ближайших подобных объектов. Мы видим, откуда приезжают группы покупателей. Добавьте сюда немного алгоритмистики, и вы получите довольно точную модель потребителя нового ТЦ. Причем не в общем, а конкретно по дням недели и по сезонам. Разумеется, учитывается и численность реального населения районов.

Вернемся к транспорту. Чем принципиально отличаются данные ваших сервисов от данных, которые собирают транспортные службы крупных городов? Может, Big Data просто дублируют то, что и так доступно благодаря классическим статистическим и социологическим исследованиям?

— Департамент транспорта Москвы собирает данные с такси, так называемые GPS-треки, чтобы анализировать загруженность дорог. С точки зрения анализа пробок и загруженности автодорог этого достаточно, но в целом проблему планирования транспортной инфраструктуры эти данные не решают. Да, можно приблизительно понять пассажиропоток по количеству проданных билетов на метро и наземный транспорт. Однако из этих данных видно только, где и сколько пассажиров зашло. Где они вышли — загадка, поскольку у нас на транспорте нет турникетов, контролирующих выход.

А по загрузке мобильной сети можно точно понять, куда и в каком количестве отправились граждане. Причем, как именно — пешком, на такси или на метро. Посмотрев карту таких перемещений и сравнив с картой городских маршрутов общественного транспорта можно увидеть несовпадения. Просто потому, что городские маршруты разрабатывались десятилетия назад. Там, где была промзона, теперь микрорайон. Или наоборот: там, где был большой завод, теперь ничего нет.

По загрузке мобильной сети можно определить уровень экономической активности?

— Анализ загрузки сети "МегаФона" позволяет нам вычислить среднее время поездки жителя Москвы из дома на работу. В апреле этого года поездка занимала порядка 49 минут. А годом раньше — около часа. Скорее всего, это связано с тем, что уменьшилось количество трудовых мигрантов, которые снимали недорогое жилье на окраинах. Экономическая активность снизилась — количество длительных поездок тоже.

Традиционные методы сбора данных вроде социологических опросов скоро станут ненужными?

— В социологии изменится инструментарий, но сама наука социология, конечно же, не исчезнет. Поквартирные опросы, как и опросы по телефону, с высокой вероятностью уйдут в прошлое. То же касается переписи населения — сегодня это долго, не всегда точно и очень дорого. Всем правит экономика. Потребители во всем мире будут повышать требования к точности данных и достоверности прогнозов просто потому, что цена ошибки стала слишком высокой: у компаний просто зачастую нет свободных денег, чтобы экспериментировать. Результат нужен стопроцентный и с первого раза. По этой причине клиенты будут выбирать тех, кто обеспечит их качественной аналитикой. Возможно, социология сама станет частью индустрии "больших данных".

Информацию для индустрии "больших данных" уже поставляют интернет-компании, социальные сети, операторы мобильной связи. Данные можно извлекать даже из спутниковых снимков. Что еще?

— В перспективе — любой транспорт или оборудование. Объем данных, который генерируют датчики современных пассажирских самолетов, доходит до нескольких терабайт за полет. Понятно, что не все они записываются, часть собирается в фоновом режиме и используется, только когда что-то произошло. Большой объем данных ожидается от будущих легковых автомобилей, оснащенных множеством датчиков и постоянно подключенных к интернету.

Из существующих источников — видеокамеры, которые есть в любом городе мира и не только на дорогах. Благодаря им охранные системы способны идентифицировать лица и пропускать сотрудников в офис, не требуя пропуска. И, возвращаясь к профессиям--кандидатам на вымирание, охранник — одна из них. Электронный страж работает круглые сутки и, что очень важно, его невозможно подкупить.

Другое интересное направление — сбор видеоданных с квадрокоптеров. Эти аппараты уже сейчас могут обеспечить высокую оперативность и качество съемки. То есть сбор данных возможен. А вот с алгоритмами обработки и интерпретации пока вопросы остаются.

Машины без водителя, тестируемые сейчас Google и другими компаниями, — из этой же серии?

— Да, причем там есть два тренда. Первый заключается в том, чтобы повысить быстродействие и разрешение обычных видеокамер. А второй — развитие лазерного сканирования. Скорость обычной видеосъемки составляет 30-50 кадров в секунду. А скорость работы сканера — тысяча круговых сканирований в секунду. Понятно, что для оценки изменения дорожной ситуации второй вариант предпочтительнее, потому что позволяет заметить мелкие детали, потенциально опасные для автомобиля. Сканер способен засечь то, что человеческий глаз просто не увидит.

Учить правила дорожного движения и сдавать экзамен на права скоро не понадобится? Инспектор ГИБДД — тоже профессия--кандидат на отмирание?

— Парк обычных автомобилей слишком большой, чтобы взять и исчезнуть. Поэтому водители пока (лет десять) могут спать спокойно. А вот инспекторы ГИБДД и правда — уже исчезающая профессия. Автоматизация и контроль транспортных потоков — одно из ключевых направлений, где работает масса талантливых людей по всему миру. Там, где пересекаются готовый интерес заказчика и лучшие специалисты отрасли, результат всегда будет.

Комментарии
Профиль пользователя