О перспективах рынка речевых технологий директор российского офиса компании Ectaco Inc. АНТОН ЕПИФАНОВ и главный специалист по перспективным проектам ВЯЧЕСЛАВ БАРЫШНИКОВ рассказали корреспонденту Ъ СЕРГЕЮ Ъ-КОЛЯДЕ.
Серая, ужатая с боков пластиковая мыльница с дырочками микрофона и динамика и небольшим зеленым дисплеем мало походит на электронного переводчика. Однако эта "мыльница" способна в ответ на произнесенное, например, "good morning" выдать испанский эквивалент "buenos dias". Свой карманный голосовой переводчик UT-103, который понимает только заданный набор фраз из словаря путешественника, но озвучивает их на трех языках, компания Ectaco показала на ноябрьской выставке Comdex в Лас-Вегасе и оказалась в центре внимания.
— Как работает эта штука?Вячеслав Барышников: Мы проводим исследования в области речи — исследуем акустический сигнал, который порождает человеческий голосовой аппарат. А он больше тысячи звуков произвести не может. В любом языке. Что касается русского, то в нем сто с небольшим звуков. Эти звуки исследуются, и на их основе создается универсальный "движок", который позволяет записать, транскрибировать любую фразу и обучить устройство понимать ее. Ничего сложного. Чтобы обеспечить независимость от тона, тембра голоса, интонации, мы используем речевые базы данных, которые позволяют нам пользоваться статистикой произношения тех или иных звуков в разных контекстах. Наша задача — "очистить" голос, найти независимые от диктора величины. Безусловно, для этого нужен сложный математический аппарат.
— Связную речь, вероятно, распознать сложнее, чем отдельные фразы?
Антон Епифанов: Текущие разработки в области речи можно оценивать примерно так же, как оценивались первые текстовые переводчики. Безусловно, переводчик "Сократ", Prompt или любой другой что-то переводит. Но в большинстве случаев его перевод грамматически несовершенен: он просто позволяет понять смысл, не зная языка. Точно так же речевые технологии позволяют машинке понять говорящего человека. Безусловно, говорить о каких-то сверхрезультатах пока рано. Но я считаю, что уже через два-три года появится устройство размером с диктофон, которое позволит без помех объясняться носителям разных языков. Перевод, понятное дело, будет ломаным, примерно в таком духе: "Я хотеть сказать один интересный вещь". Но вы сможете разговаривать на ломаном китайском, что, согласитесь, иначе достичь невозможно.
— Где еще может найти применение такой "ломаный" переводчик?
А. Е.: Например, у американских полицейских. Ведь преступники в США, как правило, не американского происхождения, и полицейским просто необходим электронный переводчик. После выставки Comdex они пишут нам письма — требуют устройство, которое могло бы переводить произвольную речь одновременно на русский, китайский и испанский языки, а также имело бы дополнительную функцию — объяснять человеку внятным юридическим языком, за что он задержан. Кроме того, распознавание речи может высвободить сотни тысяч человек, сотрудников call-центров, которым задают типовые вопросы, на которые нужно давать типовые ответы. Без speech recognition не обойтись в военных, государственных и крупных корпоративных структурах. Да взять хотя бы нашу службу поддержки: пользователи ведь задают пять-семь типовых вопросов.
— Звучит красиво, но вряд ли это применимо в России. Кстати, сложно ли распознать русскую речь?
А. Е.: В принципе нет. Но, понимаете, русских в мире не так много, как нам, возможно, хотелось бы. Испаноговорящих и китайцев гораздо больше. Да и сама технология пока далека от совершенства. Сейчас наш прибор понимает только английский, но, думаю, к весне он уже станет мультиязычным.
— Разговоры о распознавании речи ведутся уже лет двадцать. И время от времени какая-нибудь компания заявляет о том, что создала работоспособную программу или устройство. Не кажется ли вам, что дело затягивается?
А. Е.: Кажется. Полноценные распознающие речь устройства и программы начали появляться совсем недавно — с началом массовых продаж карманных устройств. Обратите внимание, насколько быстро во всех сотовых телефонах появилось распознавание речи. Еще несовершенное, но оно уже есть. Почему? Да потому, что нет ничего более естественного, чем разговор с таким устройством. А разрабатывавшиеся ранее программы для диктовки на компьютере были, по сути, не слишком нужны. Мышку и клавиатуру уже лет двадцать ничем не побороть, как и пульт для телевизора. Именно способ ввода данных в карманные компьютеры будет определять на ближайшие годы направление развития этого сегмента рынка. И, по-видимому, универсальным способом будет именно речь. Следующий этап развития технологий распознавания речи будет продолжаться пять-десять лет, и развитие будет быстрым. Сейчас разработка таких систем — дело неприбыльное, и, пожалуй, только IBM может позволить себе вкладывать в них большие деньги. Но как только на рынке speech recognition появится первая прибыль, мгновенно произойдет его передел. Бум рынка голосовых технологий мы увидим уже в 2002-2003 году.
Полностью интервью с представителями компании Ectaco опубликовано на сайте www.ione.ru.