"Я могу посмотреть для вас информацию о вылете и прибытии самолетов. Что вас больше интересует?" — спрашивает голос в трубке. Клиента с плохим произношением или невнятной дикцией голос настойчиво убеждает соединиться с живым агентом — одним из немногих оставшихся работать в авиакомпании United Airlines после внедрения электронной справочной системы, способной распознавать человеческую речь.
Как в сказке
Поговорить с живым оператором по статистике выпадает лишь 5% "счастливчиков", чье произношение — загадка для информационной системы. Остальные 95% позвонивших в United Airlines круглые сутки получают от автоответчика сведения о рейсе: достаточно лишь произнести в трубку названия пунктов вылета и прибытия. Робот дружелюбно уточняет аэропорт (в Нью-Йорке, например, их три) и время, задает наводящие вопросы, если перебивают — не обижается, но голос его суровеет, когда машина не может понять вас с третьего раза.Даже относительно простая, распознающая только отдельные слова система с богатым навигационным меню помогла United Airways (UAL) высвободить 650 сотрудников своего call-центра — почти 1% от 98 тыс. работников авиакомпании. Самым творческим личностям из числа сокращенных была предложена работа sales-менеджеров. Конечно, для одного из крупнейших в США перевозчиков такое сокращение издержек — капля в море. Но в условиях жесткой конкуренции и стагнации на рынках внутренних и международных перелетов (акционеры UAL два года подряд терпят убытки; два разбившихся 11 сентября самолета принадлежали UAL; в ноябре падение объема перевозок компании составило 23,5%) вложения в систему распознавания речи, сделанные еще в 1999 году, кажутся более чем дальновидными.
Парадокс, но у истоков внедрения Flight Information System в UAL стоят ее же сотрудники. Дело в том, что корпоративная программа предусматривает предоставление бесплатных билетов (при наличии свободных мест) не только штатным работникам, но и членам их семей, а также ветеранам компании. За почти 70-летнюю историю UAL таких "халявщиков" набралось почти полмиллиона! Мало того что льготники приносили ежегодно $1,5 млн прямых убытков, названивая в центр продаж компании по бесплатному общему телефону. Своими расспросами они отвлекали операторов от работы с более важными клиентами. В 1997 году авиакомпании это надоело, и было решено ввести отдельную систему бронирования "для своих" — Employee Reservation System на основе голосовых технологий. Ее внедрение заняло четыре месяца. Каждый работник получил собственный номер и PIN-код: позвонив по специальному номеру, он мог выяснить свои шансы на перелет — в зависимости от загрузки рейса система выдавала от "very good" до "bad". Удачный эксперимент решили распространить и на заказчиков: теперь в дополнение к 1,5 млн телефонных запросов в год от сотрудников автоматическая справочная авиакомпании обслуживает ежедневно по 70-90 тыс. запросов клиентов о расписании 2400 рейсов UAL. А в праздничные дни играючи (робот "берет трубку" спустя несколько секунд, экономия компании на вызовах toll-free) справляется со 130 тыс. звонков.
Технологии speech recognition — хорошее подспорье для работников call-центра. Это поняли не только авиаторы. Так, американский оператор связи AT&T (доход в 2000 году — около $56 млрд) ежегодно экономит по $100 млн, используя систему распознавания речи при оказании услуг телеконференций. Система VoiceBroker в инвестиционном банке Charles Schwab & Co. по телефону зачитывает клиентам котировки интересующих их акций. Если бы не VoiceBroker, банкирам пришлось бы лично отвечать на 45 тыс. звонков в день. Сэкономила на оплате рутинного труда операторов и розничная сеть Sears, Roebuck (1650 супермаркетов в США). Раньше в call-центрах компании работало свыше 3000 человек; теперь их функции (в основном — перенаправление звонков в нужный департамент) выполняет автоматика, а 200 сотрудников, сохранившие свои места, обрабатывают нераспознанные звонки. Хотя лидером по закупкам систем speech recognition является Северная Америка (61%, по оценке Datamonitor), они активно используются в Европе (31% всего объема спроса), причем не только в англоязычных странах. Так, компания Swiss Railways предоставляет своим немецкоязычным пассажирам услуги, аналогичные UAL.
Говорящий рынок
Нарастающий шквал закупок ПО, работающего с распознаванием речи, можно отследить по сайтам выпускающих его компаний. Согласно пресс-релизам, контракты на поставки заключаются чуть ли не ежедневно. Отчеты аналитиков лишь подтверждают наблюдения. Так, американская исследовательская компания Cahners In-Stat предсказывает, что мировой рынок ПО для распознавания речи увеличится до 2005 года почти в 30 раз — с $200 млн до $2,7 млрд. Причем одним из основных факторов роста аналитики Cahners называют возврат от произведенных ранее инвестиций. А компания Datamonitor, оценивавшая мировое потребление всех видов голосовых технологий, подсчитала, что объем этого рынка будет расти в среднем на 43% в год (см. график): с $650 млн в 2000 году до $5,6 млрд к 2006 году. Datamonitor также отмечает, что расходы на закупки ПО для voice recognition и text-to-speech (зачитывание текста компьютером) по состоянию на октябрь увеличились с начала года на 33%.Выделить лидера на рынке голосовых технологий невозможно. Активные разработки в этой области уже несколько десятков лет ведет IBM (семейство продуктов ViaVoice). О новых контрактах регулярно сообщают и более молодые компании: Nuance Communications, SpeechWorks, Lernout & Hauspie. Кстати, последняя, в конце 90-х делившая первенство с IBM, в ближайшее время закончит распродажу своих активов — в 2000 году она приписала в своей отчетности лишние $100 млн заказов, и теперь оба ее основателя и топ-менеджера ждут суда. В целом исследования в области распознавания речи ведут сотни компаний и тысячи ученых во всем мире. Предпринята даже попытка унифицировать эти разработки: компании AT&T, IBM, Lucent Tehnologies и Motorola предложили программный стандарт VoiceXML, позволяющий встроить готовый модуль для распознавания голоса в программную "начинку" любого устройства, будь то карманный компьютер, кукла или пылесос.
Голосом занимаются и в России: на мехматах МГУ, СПбГУ, НГУ, в петербургских компаниях "Центр речевых технологий", "Одитек", Ectaco Development Center (интервью с менеджерами российского офиса этой фирмы см. на этой странице), в московской Cognitive Technologies. Однако революционной технологии распознавания связной речи ни в России, ни на Западе пока не предложено. Улучшение качества распознавания идет по двум направлениям: кропотливое совершенствование математического аппарата и наращивание баз данных фраз (так называемых речевых корпусов), с которыми сравнивается введенный голос. При таком подходе качество распознавания зависит от производительности процессора, и выводы экспертов свидетельствуют о том, что рабочая технология появится не скоро. Так, по прогнозам исследователей из Gartner Group, программы, способные распознавать связную речь, появятся в 2010 году. "И та, и другая методики совершенствования speech recognition себя исчерпали, обе способны дать максимум доли процента улучшения распознавания,— говорит гендиректор компании 'Одитек' Юлия Кочанина.— Видимо, для революции нужен кардинально иной подход к речи. Мы, например, чтобы понять, как работает голос, исследуем произношение детей".
Так что российские компании, как и большинство западных, не спешат внедрять у себя ПО для распознавания речи. Но кроме несовершенства технологий тому есть еще несколько причин. Во-первых, voice recognition — это фактически надстройка над CRM-системой, увеличивающая ее эффективность, а количество работающих в России систем CRM можно пересчитать по пальцам. Во-вторых, распознавание речи дает эффект только при наличии у компании большого количества клиентов, которых она не в силах обслужить. Но главная причина того, что большие компании (вроде Сбербанка, "Аэрофлота" или столичных сетей супермаркетов) не готовы к установке ПО для распознавания голоса, так как на рынке отсутствуют промышленные системы, работающие с русским языком.
СЕРГЕЙ Ъ-КОЛЯДА