Google Translate «перевел» президентов

Почему программа интерпретировала фразу changed for bad по-разному

Джо Байден «изменился к лучшему», а Владимир Путин — «к худшему»: по крайней мере, именно так Google Translate интерпретирует на русский язык одну и ту же фразу changed for bad, если подставлять к ней имена мировых лидеров. На различные варианты перевода внимание обратили пользователи социальных сетей — ошибка сохраняется как в мобильной, так и в десктопной версиях. Помимо Джо Байдена, к лучшему, по мнению приложения Google Translate, меняются Барак Обама, Эмманюэль Макрон и политический обозреватель “Ъ FM” Дмитрий Дризе. При этом верный перевод появляется в случае Дональда Трампа, Александра Лукашенко, Владимира Путина и Ангелы Меркель.

Фото: Дмитрий Азаров, Коммерсантъ

В чем причина этой аномалии? Эксперт по нейросетям сервиса «Битрикс24» Алесандр Сербул объясняет, что дело может быть в наборе текстов, на которых обучался Google Translate: «Произошла революция в компьютерном переводе с языка на язык, когда для этого попробовали использовать нейросети, определяющие, какие последовательности слов до и после выражают мысль. Прогнав большой набор документов через такой алгоритм, мы научились довольно эффективно и точно переводить с языка на язык.

Основная проблема, которая остается, — переводчик, соединяя в своей нейронной сети семантику при вводе одинаковых фраз с разными именами президентов, выдает совершенно разный смысл.

Для нее слово "Путин" или "Байден" являются решающим фактором, после которого меняется вообще значение всех слов, стоящих до».

Действительно, вполне возможно, на вариации перевода мог повлиять исходный набор текстов, но есть и другое возможное объяснение, рассуждает эксперт по мобильной разработке iD EAST Денис Хоружий. По его словам, нейросеть Google Translate могла стать жертвой интернет-пранкеров: «У Google есть такая функция, как "добавить свой вариант перевода".

Фото: скриншот Google

Такой опцией могут пользоваться злонамеренно: исправление какой-то конкретной фразы предлагают несколько людей, после чего она становится "одобренной человеком", чье слово весомее, чем у самой нейросети. Если это действительно дело рук пранкеров, то они взяли конкретный текст, несколько человек исправили перевод, Google к ним прислушался и стал выдавать такой вариант. Но возможно, что фигурируют какие-то более глубокие процессы — используется какой-то сентиментный анализ, который дает эмоциональную окраску конкретным словам. В некоторых контекстах "да" могут меняться на "нет"».

Такие ошибки продолжат появляться, поскольку полностью предотвращать их возникновение невыгодно для развития технологии нейросетей, отмечает гендиректор компании Umbrella Group Степан Мешков: «После случившегося Google пойдет и удалит из этих сэмплов, на которых обучалась система, то, что является неправильным для обучения, введет корректный вариант и снова переобучит систему, и тогда она будет уже переводить хорошо.

Если туда добавить очень много условий, то мы вернемся на десять лет назад, когда электронные переводчики действовали по понятному алгоритму, переводя слово в слово.

Тогда Google переводил все очень смешно, и ему нельзя было доверять. В итоге нейросеть откатится назад. Лучше, чтобы этого не происходило — системе, наоборот, нужно накопить еще больше данных для переводов».

Как Google объяснил появление «Владимира Владимировича» при переводе «Mr President»

Смотреть

В середине декабря пользователи социальных сетей обратили внимание на другую ошибку Google Translate. Сервис интерпретировал фразу Thank you, Mr President, то есть «Спасибо, господин президент» как «Спасибо, Владимир Владимирович». Тогда пресс-офис Google в России рассказал, что искажение произошло из-за неверных шаблонов перевода, которые нейросеть нашла в интернете.

Ульяна Миненкова

Вся лента