Слушаю вас внимательно

Как развивались голосовые ассистенты и почему мы так любим с ними общаться

В 1987 году американская компания Worlds of Wonder, специализирующаяся на производстве игрушек, представила на рынке инновационную разработку — куклу Джули с функцией распознавания речи. Игрушка могла идентифицировать голос владельца и поддерживать простейший диалог, что на тот момент выглядело технологическим прорывом. Кроме голосового интерфейса кукла была оснащена набором сенсоров, реагирующих на прикосновения, перемещения и изменения освещенности. Джули «оживала» при взаимодействии с ней — моргала, двигала губами, смеялась при щекотке и реагировала на перенос из темного помещения в освещенное. В комплекте предлагалась дополнительная книга с интерактивными наклейками: проведя по ним пальцами куклы, пользователь мог услышать озвученные реплики — кукла «читала» информацию.

Фото: Кирилл Каллиников / РИА Новости

Фото: Кирилл Каллиников / РИА Новости

Джули стала первым массовым продуктом с функцией голосового управления, открывшим возможности речевого взаимодействия в сегменте потребительских игрушек.

В начале 2010-х годов говорить с телефоном казалось скорее развлечением, чем повседневной практикой. Сегодня же голосовые ассистенты обитают в телефонах, колонках, автомобилях и даже холодильниках. Мы просим их рассказать о погоде, поставить будильник, включить музыку или пошутить. Они отвечают, вежливо шутят в ответ и не устают повторять одно и то же. Пожалуй, это и есть их главное преимущество.

История с синтезом

Технологии синтеза речи прошли долгий путь — от механических экспериментов XVIII века до нейросетей XXI столетия. Первые попытки воспроизвести человеческий голос воссоздавались с помощью трубок, мехов и акустических резонаторов: например, в 1770-х австрийский изобретатель Вольфганг фон Кемпелен представил публике устройство, имитирующее произнесение слов. Однако настоящая инженерная работа началась в XX веке, когда на смену механике пришла электроника. Одной из первых удачных реализаций стал синтезатор Voder, созданный в Bell Labs в 1930-х годах. Это устройство управлялось вручную и с трудом имитировало речь, но именно оно стало основой для дальнейших исследований.

Первые коммерческие попытки распознать речь относятся к 1950–1960-м годам: системы могли понять лишь отдельные слова и работали по заранее заданному списку. Синтезаторы, в свою очередь, звучали как голоса роботов из фантастических фильмов. В 1961 году IBM представила компьютерную программу, способную «спеть» — голосовой синтезатор исполнил песню «Daisy Bell». Позднее этот эпизод вдохновил Стэнли Кубрика на создание HAL 9000 — разговаривающего компьютера в «Космической одиссее». В 1970–1980-х годах синтез стал использоваться в коммерческих целях: голосовые интерфейсы появились в автонавигации, авиасвязи, телефонных справочниках. На этом этапе использовался формантный синтез, основанный на моделировании основных частот речи, однако звучание оставалось неестественным.

В 1980–1990-х годах произошел сдвиг: появились системы с динамическим словарем и возможность обучения модели под конкретного пользователя. Но и тогда речевые интерфейсы оставались нишевыми — для людей с нарушениями зрения, в военной или авиационной сфере.

В 1990-х, когда появились первые статистические и конкатенативные методы, разработчики начали собирать большие базы записанных голосов и комбинировать их фрагменты для создания целых предложений. Это дало более реалистичное звучание, хотя и ограничивало гибкость: изменить интонацию или темп было практически невозможно.

К массовому прорыву технологии подошли только с развитием нейросетей. Именно они позволили распознавать живую, спонтанную речь, понимать контекст и даже интонацию. Синтез тоже эволюционировал: современные голосовые движки способны озвучивать тексты с естественными паузами, эмоциями и даже в нужном стиле — от новостной дикции до разговорной.

Первыми масштабными продуктами стали Apple Siri (2011), Amazon Alexa (2014) и Google Assistant (2016). Их появление совпало с ростом рынка умных колонок и умного дома.

Прорыв случился в 2016 году, когда компания DeepMind (принадлежит Google) представила модель WaveNet — нейросетевой синтезатор, способный генерировать речь с плавной интонацией и естественными переходами между звуками. Вслед за ним появились другие модели, такие как Tacotron 2 и FastSpeech, позволившие превратить текст в речь без промежуточных этапов. Они легли в основу современных голосовых ассистентов и аудиокниг.

Россия на связи

Технологии синтеза речи в России, как и в мире, начинались с научных лабораторий и долгое время развивались в отрыве от массового пользователя. Первый интерес к машинной речи в СССР проявился в 1950–1960-х годах. Тогда этим занимались институты, входившие в Академию наук, а также оборонные предприятия. Разработка синтеза речи велась в контексте задач автоматического управления, радиосвязи и систем оповещения. Речь шла о простом озвучивании чисел, команд и фиксированных фраз.

Одним из первых советских речевых синтезаторов был аппарат, созданный в Институте проблем управления в 1970-х годах. Он использовал формантный подход и мог воспроизводить слова из ограниченного словаря. Звучание было далеко от естественного, но уже тогда велась работа над интонационной модуляцией, чтобы сделать речь менее «роботизированной».

В 1980-х технология получила развитие в сфере авиации, железнодорожного транспорта и ранней робототехники. Звучащие табло, автоматические объявления и голосовые указатели в метро или на вокзалах — это примеры того, как речевой синтез начал проникать в публичную среду. С распадом СССР внимание к теме на время ослабло: приоритеты сместились, и развитие шло медленно.

Новый импульс пришел в 1990-х. Тогда начали появляться первые коммерческие российские компании, специализирующиеся на речевых технологиях. Самой заметной стала петербургская компания «Центр речевых технологий» (ЦРТ), основанная в 1990 году. Ее разработки использовались в банковском секторе, в полиции, в службах безопасности и в телекоммуникационных компаниях. ЦРТ развивал как синтез, так и распознавание речи. Их синтезаторы использовались в автоматических справочных, голосовых меню и даже в навигационных системах для автомобилей.

В 2000-х годах на рынок вышли и другие игроки — среди них «Наносемантика» и Just AI. Постепенно технологии становились доступнее, и голос начал звучать не только в службах поддержки, но и в навигаторах, электронных учебниках и медицинских системах.

Привет, «Алиса»

Ассистент «Алиса» появился в «Яндексе» в 2017 году, но идея зародилась еще в 2015-м, когда команда, занимавшаяся навигацией, задумалась о создании «умного голоса», способного вести не только по маршруту, но и поддерживать диалог. На старте в проекте участвовали специалисты по машинному обучению, интерфейсам и сценарию общения. Название «Алиса» отсылает к «Алисе в Стране чудес» и создает образ любопытного, доброжелательного и немного ироничного помощника.

В основе «Алисы» лежит диалоговая модель, обученная на массиве русскоязычного интернета. Она умеет поддерживать свободный разговор, распознавать команды, отвечать на вопросы, рассказывать анекдоты и даже проявлять характер. В отличие от конкурентов, «Яндекс» сделал ставку не на строгую утилитарность, а на человекообразие — помощница могла флиртовать, обижаться и шутить. Этим «Алиса» сразу выделилась на фоне функциональных, но «безликих» западных аналогов.

Синтез речи в «Алисе» прошел значительную эволюцию. Если на ранних этапах голос записывался на базе профессионального диктора (им стала актриса Татьяна Шитова), то позже «Алиса» перешла на нейросетевой синтез: голос перестал быть фиксированной записью и начал генерироваться динамически. Это позволило варьировать интонации, реагировать на контекст и даже менять стиль — от официального до шутливого.

Сейчас «Алиса» интегрирована в браузер, мобильные устройства, умные колонки, автомобили и телевизоры. Она умеет управлять музыкой, рассказывать сказки, управлять умным домом, заказывать еду, строить маршрут и вести светский разговор. Внутри «Яндекса» ассистент развивается в рамках более широкой платформы YandexGPT — универсального ИИ-ядра, к которому подключаются разные интерфейсы, включая голосовой.

Таким образом, российские технологии синтеза речи прошли путь от лабораторных экспериментальных систем до повседневных цифровых собеседников. «Алиса» стала самым узнаваемым примером, но за ней стоит целая экосистема решений и технических школ, которые за последние 30 лет научили машины понимать и говорить по-русски.

Машина, которая слушает

Почему мы вообще разговариваем с машинами? Британский психолог Клифф Насс из Стэнфордского университета показал, что люди склонны переносить социальные паттерны на цифровых помощников: благодарят, извиняются, раздражаются, если те не понимают. Даже зная, что перед ними машина, пользователи часто действуют так, будто общаются с живым существом.

На это же делают ставку разработчики. Антропоморфизм — важнейший элемент успеха. Поэтому у помощников есть имена, характеры, тембры. Их обучают шутить, подстраиваться под настроение и говорить «по-человечески». Чем ближе машина к человеку в разговоре — тем дольше с ней хотят общаться. Исследование Pew Research Center показывает, что многие пользователи воспринимают ассистента как «личного секретаря». Он под рукой, не судит, не отвлекается и всегда готов помочь.

Есть и оборотная сторона. Психологи из Университета Дьюка отмечают, что взаимодействие с ассистентами формирует «обратную эмпатию»: человек становится менее терпим к обычным собеседникам, которые не отвечают с такой же скоростью или точностью. Но пока эти эффекты остаются в пределах нормы.

Голосовые ассистенты не заменяют человека, но создают иллюзию заботы и внимания. В мире, где все больше разговоров превращается в переписку, возможность просто сказать «Привет, поставь будильник на 7:30» становится удивительно комфортной формой контакта. Даже если на другом конце — не человек, а нейросеть.

Екатерина Баева