"Прелесть биометрической идентификации в том, что она работает на любом языке"

Распознавание речи, голос "Владимир" и передовые способы идентификации людей — все это направления работы Центра речевых технологий (ЦРТ). О перспективных технологиях и их коммерциализации в интервью BG рассказывает генеральный директор компании ДМИТРИЙ ДЫРМОВСКИЙ.

Фото: Александр Коряков, Коммерсантъ  /  купить фото

BUSINESS GUIDE: Какие разработки ЦРТ, на ваш взгляд, сегодня являются наиболее передовыми и перспективными с технологической точки зрения?

ДМИТРИЙ ДЫРМОВСКИЙ: Мы сделали для "МегаФона" систему, оптимизирующую работу контакт-центра. Она в автоматическом режиме общается с потребителями, распознает их запросы, отвечает. Сейчас технология уже позволяет анализировать сложные запросы и интеллектуально выбирать необходимую информацию. Получается значительная экономия ресурсов компании: операторы могут не заниматься рутинными ответами.

Мы создали образ — девушку с симпатичным голосом, назвали ее Еленой. Получили приз за это внедрение на форуме Call Center World — "Хрустальную гарнитуру". То есть продукт был оценен отраслью.

Подобную систему мы внедряли в РЖД. Были интересные звонки после этого. Звонит бабушка и говорит: "Вы знаете, я позвонила вам в колл-центр, а у вас там такие бездушные операторы. Я рассказываю девушке про свою жизнь, жалуюсь, а она слушала-слушала и говорит: Вам "куда ехать"?". Наше решение настолько похоже на человека, что клиенты порой уже не понимают, с кем общаются.

BG: В какую сумму вы оцениваете мировой рынок распознавания и синтеза речи?

Д. Д.: Десятки миллиардов долларов. Но важно понимать, что рынок распознавания и синтеза речи языкозависимый. Мы хорошо понимаем и говорим по-русски, в отличие от наших западных коллег. Понимаем диалекты, которых в России огромное количество, и говорим без акцентов. Мы активно работаем в России, хотя сейчас осваиваем и казахский язык. Распознавание и синтез казахского языка до нас еще никто не делал. Мы собирали большое количество носителей, получали голосовые образцы. Коллеги из Казахстана помогали с лексикой, фонетикой и т. д., сейчас идут первые проекты в этой стране.

Сейчас занимаемся испанским и французским языками, идет проработка по арабскому языку. С точки зрения бизнеса мы больше сосредоточены на Ближнем Востоке и Латинской Америке.

BG: Почему именно там?

Д. Д.: Рынки США и Европы очень насыщенные, с серьезной конкуренцией. Плюс, как вы понимаете, есть не совсем дружеское отношение к России, особенно сейчас. Несколько проектов и договоренностей сорвались или заморожены.

В этом плане с Латинской Америкой проще: отношение к России другое — нас воспринимают очень положительно, особенно в таких странах, как Боливия, Венесуэла. Кроме того, на Ближнем Востоке и в Латинской Америке покупают наше вооружение, поэтому с Россией они знакомы и есть определенное уважение к российским технологиям и образованию. Как вы знаете, у нас есть базовая кафедра в НИУ ИТМО — кафедра речевых информационных систем. В нынешнем году ИТМО начал сотрудничество с Технологическим университетом Монтеррея — крупнейшим предпринимательским вузом Мексики: там создано представительство российского университета, и мы тоже активно это поддерживаем. Мы не просто идем в эти страны, но и стараемся там закрепиться в плане подготовки специалистов, открытия учебных центров, какой-то кооперации с местными университетами и лабораториями. Это потом дает свой экономический эффект, поскольку люди уже знакомы с нашими продуктами и умеют работать с ними, так что выбирают нас при развертывании новых проектов.

BG: Расскажите о ваших наработках в области биометрии.

Д. Д.: Мы можем понимать, что говорит человек, можем ему ответить. Но также мы можем понимать, вы это говорите или не вы. В этой технологии мы мировые лидеры, и это не наше голословное заявление. Прелесть биометрической идентификации в том, что она работает на любом языке — испанском, английском, арабском. Это языконезависимая технология. Голос формируется речевым аппаратом, это определенная физика процесса со специфическими параметрами, которые можно оценить в независимости от того, на каком языке вы говорите.

В конкурсе NIST (National Institute of Standarts and Technology) SRE (Speaker Recognition Evaluation) — неофициального чемпионата мира по идентификации диктора — мы участвуем второй раз подряд в части голосовой биометрии. Там было порядка 60 участников из 20 стран мира. Мы запускали три команды и заняли три первых места.

В том числе благодаря этой победе у нас сейчас очень много международных проектов, связанных с биометрией. Например, с американским банком Wells Fargo.

К сожалению, в России об успехах в этой отрасли очень мало знают. Считается, что у нас только космос, балет и нефть. На самом деле есть отрасли, где нам достаточно серьезно удается конкурировать и побеждать на мировом уровне.

BG: В каком финансовом состоянии сейчас находится ЦРТ?

Д. Д.: Выручка в прошлом году приблизилась к 1 млрд руб., в нынешнем надеемся показать рост. Однако год предстоит тяжелый. Дело в том, что у нас работают очень сильные ученые и специалисты высочайшего уровня и проводить серьезную научную работу сейчас, прямо скажем, очень недешево.

BG: Какова структура компании?

Д. Д.: У нас компания замкнутого цикла, все: от идеи до производства — делается своими силами. Отдельно выделено научное подразделение, которое делает основные "кубики" — базовые технологии. В него входят отделы распознавания речи, синтеза речи, аудиовидеобиометрии.

А дальше уже идут продуктовые направления. Они из этих базовых "кубиков" делают продукты. Например, голосовая биометрия может быть использована в учетной системе для экспертов-криминалистов в полиции. И та же голосовая биометрия может быть использована в банке для подтверждения личности своих клиентов, звонящих в контакт-центр.

Распознавание лиц может быть использовано на стадионе для идентификации болельщиков, и оно же может быть использовано полицией для поиска преступников.

Если идти по продуктовым направлениям, то первое крупное и серьезное — это системы многоканальной записи и оповещения. Это запись для телефонии, контакт-центров, дежурных служб и диспетчерских в самом разном исполнении: от маленьких коробочек до огромных систем записи. Например, в МТС контакт-центры ведут записи нашими системами. Также здесь применяются инструменты аналитики, ведь нужно контролировать качество обслуживания на тысячах и тысячах линий, понимать, какие есть тенденции. Мы не только записываем эти звонки, но и преобразовываем разговор в текст. Можем отсортировать, автоматически, без прослушивания человеком найти какие-то "плохие" звонки, где идут претензии, жалобы и т. п.

Второе большое направление связано с биометрическими экспертными и поисково-аналитическими системами. Это в основном работа с правоохранительными органами — системы для экспертов-криминалистов, учетные системы.

Третье направление — видеобиометрия, системы для стадионов, различных спортивно-массовых мероприятий и транспорта. В том числе тут тоже есть интерес для правоохранительных органов.

Также мы производим достаточно большое количество диктофонов, систем шумоочистки. Это коробочные аппаратные средства. Диктофоны профессионального качества с большим успехом используются в сфере безопасности, в правоохранительных органах. Знаю, что юристы и журналисты у нас их тоже активно приобретали.

Ну и отдельным сегментом у нас идут системы специальной техники и военная техника. Мы серийно поставляем своего рода черные ящики — голосовые регистраторы для подводных лодок и кораблей. Может быть, достаточно неожиданное направление для ЦРТ, вот как оно родилось. Наши эксперты в свое время делали экспертизу по подводной лодке "Курск" после трагедии. Пленки восстанавливались и обрабатывались у нас. После этого мы вышли с предложением на руководство ВМФ, что пора уже переходить от пленочных на цифровые регистраторы. Нам эту работу доверили, мы ее реализовали и сейчас серийно производим эти черные ящики и ряд других систем, связанных с корабельной связью.

BG: Недавно вы завершили крупный совместный с ФК "Зенит" проект, оборудовав петербургский стадион системой идентификации болельщиков. Есть ли уже какие-то результаты от ее использования?

Д. Д.: Мы реализовали систему, которая позволяет в автоматическом режиме идентифицировать всех болельщиков, которые приходят на стадион. Сейчас у нас оснащены четыре сектора на стадионе "Петровский", планируем до конца года оснастить весь стадион.

Получилась уникальная система. "Зенит" подошел к делу очень обстоятельно: они тестировали три системы. Поставили рядом и смотрели, как они работают, по итогам выбрали нас. Но затем еще около года мы дорабатывали ее с учетом специфики спортивного объекта. Тут много особенностей: и пропускной режим, и то, как это отображать, где фиксировать, как соблюдать закон.

В прошлом году система была запущена в эксплуатацию. На данный момент более 15 матчей было проведено с ее использованием. Сейчас она стоит на фанатском секторе "Вираж". Мы проверили более 40 тыс. болельщиков за это время. Система полностью соответствует требованиям ФИФА по пропускной способности. Требования ФИФА — порядка 6 сек. на зрителя, а мы делаем идентификацию за 2 сек., так как начинаем проверку болельщика еще до подхода к билетно-кассовому терминалу.

Основная идея заключается в том, чтобы не пропускать хулиганов на стадион.

Если болельщик в маске, очках, шапке и система не получила качественных фотографий его лица, то турникет не открывается. Лишь когда он откроет лицо и система сможет сверить его с черным списком, предоставленным "Зенитом", турникет будет открыт.

Так вот за это время были не допущены 11 человек, которые находились в черном списке "Зенита" и были ранее замечены в каких-то противоправных действиях.

С РФПЛ прорабатываем идею работы этой системы на глобальном уровне. Так как болельщики перемещаются между стадионами, городами. Наша идея — чтобы была централизованная база под эгидой РФПЛ, которая позволяла бы клубам обмениваться информацией между собой. Тогда система заработала бы в полную силу, а болельщик понимал бы неотвратимость наказания: если он совершил что-то в Казани, то на следующий матч в Санкт-Петербурге он на стадион не попадет.

BG: А насколько точно определяется лицо? У меня есть сомнения, что это удается эффективно сделать в полевых условиях.

Д. Д.: Вот "Зенит" — куда уж более полевые условия. Система работала с прошлой осени до весны, в самые неблагоприятные с точки зрения освещения временные условия. И все работало хорошо.

В части верификации, то есть сравнения одного с другим, надежность очень высокая — 99% и выше. Когда мы сверяем по базе — например, есть тысяча нарушителей и нужно всех прогнать по этому списку, то тут надежность уже ниже — 95-96%. Но пока из 40 тыс. болельщиков, побывавших на стадионе, при наличии не очень большой базы нарушителей, 20-30 человек, не было ни одного ложного срабатывания.

BG: Каковы перспективы применения вашей технологии для создания автоматических субтитров на телевидении?

Д. Д.: Все было бы просто, если бы не было так сложно. Сейчас это один из самых социально значимых наших проектов. Потому что, по разным оценкам, в России сейчас от 300 тыс. официально зарегистрированных людей с ограничениями по слуху до 30 млн людей, которые фактически имеют какие-либо ограничения, связанные со слухом. Огромная категория граждан. Сейчас субтитры делаются для первого мультиплекса телеканалов, но пока они доступны только для подготовки в отложенном времени. То есть только то, что есть в записи,— какие-либо фильмы или передачи. Ничего из прямого эфира субтитрироваться до реализации этого проекта не могло. Потому что это ручной труд: сидят девушки или молодые люди, которые печатают текст. Понятно, что спортивные мероприятия, например, в записи смотреть никому не интересно.

Министерство связи поставило нам такую задачу три года назад — по созданию комплекса подготовки субтитров. С одной стороны, все просто — распознал речь, поставил... Но есть экспрессивные комментаторы, например небезызвестный Дмитрий Губерниев, которые прекрасно и увлекательно ведут репортажи, но при этом если взять их речь и слово в слово поместить на бумагу, то она окажется не очень читаемой. То, что звучит на слух хорошо, не всегда так же ложится в текст.

В итоге была сделана комбинированная система. У нас есть респикер, то есть человек, который, по сути дела, переговаривает то, что говорит комментатор, немного ужимая, чтобы все это влезло на экран. Естественно, это распознается с большей надежностью, так как систему можно заточить под конкретного респикера. Также есть редактор, который в случае надобности быстро обрабатывает готовый текст до вывода на экран.

Нами были проведены трансляции на портале Russia Sport на Паралимпийских играх в Сочи совместно с АНО "Спортивное вещание". Большое им спасибо за их смелость: они рискнули, не побоялись попробовать что-то новое. В основном субтитрировались хоккей, биатлон, лыжные гонки и церемония закрытия Игр. Все транслировалось на портале Russia Sport, было не менее 30 тыс. подключений. Собрали огромное количество положительных отзывов, так как людям с ограничениями по слуху также хочется получать комментарии и полную информацию в процессе самого события, а не через день. Мы дали им такую возможность.

Очень надеемся, что процесс продолжится, и мы активно продолжаем работу на телевидении. Правда, при субтитровании в прямом эфире возникают сложности с интеграцией в текущую телевизионную инфраструктуру. Тем не менее наша технология также позволяет и в отложенном режиме делать субтитры быстрее, чем было раньше. Время их создания сокращается в два с лишним раза, так что это тоже дает телеканалам новые возможности.

BG: А на массовом рынке у вас есть похожий продукт?

Д. Д.: И да и нет. Мы его разработали, он называется VOCO. Сейчас идет бета-тестирование — мы готовимся к выводу продукта на рынок. У нас есть очень интересные бета-тестеры VOCO. Например, Роман Аронов, бывший военный летчик, потерял возможность двигаться, разбившись на параплане. Но при этом он сумел после этого организовать собственный бизнес: он производит инвалидные коляски.

У человека прекрасно работает голова, он обаятелен и образован, но при этом совершенно обездвижен. Для него единственное средство коммуникации — это подобное решение, так как он не может набирать ничего на клавиатуре.

BG: Но ведь в любом смартфоне уже есть приложения Google, которые позволяют распознавать речь...

Д. Д.: Самая принципиальная разница в том, что у Google и у других коллег все это работает в "облаке". Ваши личные переживания, совещание серьезного предприятия, государственные вопросы или что-то еще подобное в "облако" Google отправлять бы не хотелось.

Мы предоставляем именно локальное средство, не требующее подключения к интернету. У нас на данный момент пока только приложение для ПК.

Второе отличие — это качество работы с русским языком. У наших западных коллег русский хороший, но все-таки достаточно посредственный. С одной стороны, они отлично работают с поисковыми запросами. Вот эти вот там "ОК, Google, где купить цветы", это работает неплохо. Но когда мы говорим про спонтанную, слитную речь, где я что-то вам рассказываю, то для таких задач Google для русского языка слабоват. Это уже не просто короткий запрос, это полноценная речь, где требуется серьезная модель русского языка и даже профессиональные специализированные словари.

Мы рассчитываем на медицинский сегмент: врачи смогут использовать такое средство для заполнения карт больных. Особенно это актуально для рентгенологов, врачей УЗИ. Потому что прием — это часто 3 минуты осмотра и 15 минут записи о том, что у вас произошло. У нас уже есть примеры внедрения в Санкт-Петербурге и Москве.

BG: В проекте "Тотальный диктант" использовался ваш синтезированный голос с именем "Владимир". В этом есть подтекст?

Д. Д.: У нас есть восемь разных синтезированных голосов. Один из лучших — именно "Владимир". Он чем-то похож на Левитана, брутальный и естественный. "Владимиром" назван по имени человека, на записях которого был реализован.

"Тотальный диктант" в Санкт-Петербурге проводился на 28 объектах, и интерес к площадке, где был наш голос, оказался достаточно большим. Собрал гораздо больше, чем многие звезды кино и телевидения. Это показывает, что у таких технологий огромное будущее, а их применение обширно. Это и интернет вещей, и робототехника.

BG: Какой ваш прогноз по программе импортозамещения и всей высокотехнологичной российской отрасли? Пример вашей компании говорит о том, что мы можем конкурировать с мировыми лидерами, сможет ли этот успех стать массовым?

Д. Д.: Тут многое будет в том числе зависеть и от воли государства. Конечно, когда чиновники или представители госкорпораций закупают зарубежные решения, которые хуже отечественных и дороже, то это, безусловно, расстраивает. Тут много факторов: и сложившаяся за долгие годы экосистема российского ИТ-рынка, где долго доминировали западные гиганты, и недостаточная осведомленность руководителей разного уровня...

Но есть и положительные тенденции — ситуация меняется. Сейчас активно продвигается законопроект по импортозамещению в сфере программного обеспечения, который мы полностью поддерживаем. Наше профильное министерство — Министерство связи и массовых коммуникаций РФ — выстраивает хороший диалог с бизнесом и занимает активную позицию в этом вопросе, что нас очень радует и внушает реальный оптимизм.

В России действительно существуют отличные технологии и решения, которые не только не уступают, а зачастую превосходят лучшие зарубежные аналоги. Таких примеров, вы правы, немало. Потенциал огромный... И мне кажется, что это вопрос времени — выход отечественных решений на лидирующие позиции в РФ, а при определенной поддержке и значимый рост высокотехнологичного несырьевого экспорта из нашей страны

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...