Космические технологии более доступны, чем машинный перевод

Игорь Ашманов, кандидат физико-математических наук

Машинному переводу как идее — более 50 лет. Какое-то время казалось, что задача будет вот-вот решена. Не буду утомлять датами и названиями проектов, скажу лишь, что ничего не вышло.

Первые попытки подступиться к проблеме в 1960-70-х годах закончились поражением, на сцене остались только электронные словари — перевод "слово за слово".

У нас есть машинный перевод Google и отечественный Promt, готовые к использованию продукты, но выглядят они тоже скорее как поражение. Переводчика-человека за такое качество работы сразу уволили бы.

Постепенно стало ясно, что машинный перевод — это не проходная задача информатики, а вершина прикладной лингвистики, ее Эверест.

Поговорить с машиной

Таких Эверестов, в общем, даже два: машинный перевод и диалог с машиной на естественном языке. На основе второй задачи сформулирован тест Тьюринга на искусственный интеллект: считается, что ИИ будет создан, когда человек, общаясь с машиной, не сможет отличить ее от человека. Никаких других тестов на "машинное сознание" у нас нет.

Эти две задачи — перевод и общение — примерно эквивалентны по сложности.

Но прежде чем обсуждать, как решать задачу машинного перевода и можно ли ее решить, зададимся вопросами: что же это за задача и зачем ее решать. Со времен Вавилонской башни языковый барьер между людьми — один из самых сложных; и все же — для чего?

Первое. Общее понимание текстов на чужих языках — для быстрого прочтения инструкции к бытовой электронике или лекарству, быстрого ознакомления с сайтом и т.п. Эта задача уже решена Google и Promt — с низким качеством, зато для многих пар языков.

Второе. Составление ответственных текстов на другом языке: заверенного перевода, важных документов, художественной литературы. Машинного перевода для решения этой задачи нет. Объем рынка — до $30 млрд в год; нынешний рынок машинного перевода — не более $300 млн.

Третье. Свободное общение на чужом языке (в турпоездке, в социальных сетях и т.п.). Таких продуктов, дающих приемлемое качество, — тоже нет. И уж тем более у нас нет универсального коммуникатора из фантастических романов, такой коробочки, чтобы положил на стол — говоришь в нее, а из нее слышен перевод.

Фразы не клеятся

Как удалось решить задачу N1? Первые лет тридцать машинный перевод пытались сделать на правилах и синтаксическом разборе предложения. Основная проблема всех таких алгоритмических методов — сложность, безудержное ветвление миллионов вариантов и огромный перебор; невозможно пройти перевод одной фразы в отладчике. Для шахмат удалось выработать средства ограничения перебора, а для машинного перевода — нет. Вершина такого подхода — системы типа Promt, качество которых оставляет желать лучшего, особенно на длинных фразах, где синтаксический разбор и перебор разваливаются.

В 1990-х годах возник статистический перевод с самообучением по параллельным текстам, когда развитие поисковых машин дало минимально необходимый запас таких текстов. Вершина — переводчик Google. Главная проблема здесь — нехватка параллельных образцов для всех вариантов входных фраз и неумение системы "сшивать" длинные согласованные фразы.

Однако качество статистического перевода постепенно растет, он вовсю используется для общения. Во всяком случае, нигерийские письма с просьбой помочь обналичить деньги от "жены Каддафи" уже приходят на "русском".

Заметим, что как далеко не у всех стран есть своя космическая промышленность, так не у всех есть и свой поисковик, антивирус или машинный переводчик. Более того, космические технологии более доступны, они есть у большего числа стран. В России было больше десяти проектов машинного перевода, сейчас живы 3-4. В большинстве стран такого нет и не было.

Вселенная смыслов

Есть представление, что настоящий машинный переводчик требует создания сильного искусственного интеллекта, обладающего "пониманием" или даже "самосознанием". Это представление навеяно фантастикой и голливудскими фильмами и неверно в двух смыслах: а) для качественного перевода достаточно программирования и работы с данными, а не "самосознания машины"; б) никто не знает, что вообще такое понимание (сознание).

Человечество не смогло выработать удовлетворительного определения (или определителя) разума, сознания и понимания. Конечно, в первую очередь, из-за рекурсии — чтоб понять понимание, нужно понимание. Трудно определить предмет через самого себя, именно поэтому Тьюринг выбрал для искусственного интеллекта феноменологическое определение — через разумность внешнего общения.

В тексте же смысла вообще нет. Текст — лишь ключ для запуска процесса создания смысла. Смысл рождается в голове пишущего, потом кодируется текстом и воспроизводится (с потерями) в голове читающего. Этот факт хорошо иллюстрируется примером Виталия Файна: девушка говорит парню "помнишь июль?". Для всех остальных в этом тексте есть только атомарный смысл — что-то про июль. А для этих двоих — целая Вселенная смыслов, спрятанная не в тексте.

И все же рассчитывать на появление "хорошего" машинного перевода в ближайшие годы безо всякого "истинного понимания смысла" — можно.

Через четыре года...

До универсального коммуникатора — недалеко. Распознавание речи вот-вот заработает хорошо: Siri в iPhone и голосовой поиск Google — оба от Nuance — это наглядно показывают. Для бытовых ситуаций в чужой языковой среде (знакомство, шопинг, паспортный контроль) надо распознавать всего 200-300 шаблонов в каждом случае, и можно переспрашивать! Уже ясно, что это будет мобильный телефон или планшет, с переводом где-то там, на сервере, в "облаке". Я оцениваю время появления первых доступных образцов в 3-4 года.

Пишут, что в американской армии уже раздают устройства голосового перевода с английского на арабский и обратно. С теми самыми тремястами фразами. Ну, там "руки за голову", "кто твой командир", "где спрятал бомбу" и т. д.

Перспективы машинного перевода ответственных текстов — туманны. Я думаю, реальный временной горизонт здесь — 7-8 лет. Конечно, это будут гибридные системы — алгоритмическо-статистические, с довольно тяжелой лингвистикой.

Но я боюсь, что никто извне не даст нам избавленья — ни Apple, ни Google: никто, кроме нас самих, не сделает хороший машинный перевод для сотни языков народов России и СНГ.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...