От точности к смыслу
Руководитель службы качества машинного перевода «Яндекса» — о том, как большие языковые модели меняют перевод
Пятнадцать лет назад в «Яндексе» создали сервис перевода. За это время технологии прошли путь от фразового перевода до сложной нейросетевой системы, в основе которой лежат большие языковые модели.
Фото: Анатолий Жданов, Коммерсантъ
Фото: Анатолий Жданов, Коммерсантъ
Сегодня система перевода «Яндекса» способна удерживать контекст на протяжении глав, объяснять логику своих решений и делать перевод почти неотличимым от человеческого. Но за этим прогрессом стоит не только развитие алгоритмов — это еще и грандиозная индустриальная задача: миллиарды запросов, более сотни языков, жесткие требования к скорости и надежности. С какими вызовами сталкивается машинный перевод сегодня и что ждет его в будущем — в интервью «Ъ-Науки» с руководителем службы качества машинного перевода «Яндекса» Николаем Карпачевым.
— Если оглянуться на 15 лет, какие основные этапы развития технологии вы могли бы выделить? Что принципиально менялось в подходе к переводу?
— За последние 15 лет архитектура машинного перевода менялась трижды. Первый этап — статистический, или фразовый, перевод. Это был сложный, многокомпонентный пайплайн, в котором перевод собирался из фрагментов, как мозаика. Мы строили огромные таблицы вероятностей для словосочетаний, чтобы корректно обрабатывать устойчивые выражения вроде «it’s raining cats and dogs». Без этого контекст неизбежно терялся.
Второй этап наступил с приходом нейросетей — сначала рекуррентных, затем трансформерных. Это была революция: множество разрозненных компонентов заменила одна сквозная модель. Нейросети в среднем давали гораздо более качественный перевод, чем фразовые модели, однако в редких случаях могли «галлюцинировать» — выдавать синтаксически корректный, но бессвязный текст. Поэтому мы долгое время использовали гибридную систему: алгоритм CatBoost выбирал лучший вариант между старой, надежной фразовой моделью и новой нейросетью.
Третий этап — эра больших языковых моделей. В 2025 году мы внедрили LLM, дообученные специально под задачу перевода, и стали постепенно разворачивать их в наших продуктах, начиная с «Яндекс. Браузера», где переводятся преимущественно длинные тексты, а затем и в интерфейсе самого «Яндекс. Переводчика». LLM дали принципиально новое качество: они не просто переводят слова и выражения, а генерируют текст, который звучит так, как мог бы написать человек, и способны удерживать контекст повествования на протяжении нескольких абзацев.
За каждой из этих технологических вех стоит не просто смена алгоритмов, а глубокая исследовательская работа. У «Яндекса» многолетняя и уникальная для России экспертиза в области машинного обучения, и перевод всегда был одной из ключевых областей ее применения. Накопленный опыт позволяет нам не просто внедрять готовые решения, а разрабатывать собственные архитектуры, методы обучения и оценки качества. Это дает возможность решать задачи, которые еще недавно казались нерешаемыми.
— Внедрение больших языковых моделей — это просто следующий шаг в повышении качества или более глубокие изменения?
— Это смена парадигмы. Дело не только в том, что метрики качества стали выше,— изменилась сама природа перевода. LLM обучаются на огромных массивах текстов, впитывая живые обороты, стилистические нюансы, идиомы. В отличие от моделей, обученных исключительно на параллельных корпусах, они не ограничены фиксированным словарем и могут использовать более широкий спектр лексических средств. Это позволяет передавать не просто смысл, а культурные особенности языка, делая перевод по-настоящему естественным.
Второе принципиальное изменение — способность удерживать контекст. Раньше нейросеть разбивала текст по предложениям и переводила их независимо. Из-за этого терялись связи: «I saw a cat. It was black» могло превратиться в «Я видел кошку. Он был черным». LLM позволяют удерживать контекст в пределах абзацев. Персонаж перестает менять пол и имя по ходу главы, локальная связность текста стала совершенно другой. Перевести целиком «Войну и мир» одной моделью пока невозможно — над ультрадлинным контекстом предстоит работать, но локальная связность текста изменилась кардинально.
— Внедрение LLM потребовало перестройки архитектуры сервиса?
— Безусловно. LLM — технология ресурсоемкая, и обрабатывать через нее все запросы было бы невозможно: потребовалось бы огромное количество видеокарт, а время ответа выросло бы значительно. Поэтому мы выстроили архитектуру, которая балансирует между качеством и скоростью. Где-то по-прежнему работает старый нейросетевой перевод — он легче и быстрее, а в сложных случаях подключается LLM.
Чтобы тяжелые модели «худели» и работали быстрее, мы используем техники сжатия: дистилляцию знаний, когда компактная модель обучается на выходах большой, и квантизацию весов, снижающую вычислительную сложность без критической потери точности. Кроме того, у нас нет одной универсальной LLM на все языки. Мы группируем языки по семействам — например, романскую группу для европейских языков. А для самых массовых направлений, таких как англо-русская пара, держим отдельные модели, где качество важнее всего. Это тоже помогает оптимизировать ресурсы.
— У больших языковых моделей есть известная проблема — «галлюцинации», когда модель выдает уверенный, но ложный ответ. Насколько эта проблема критична для перевода?
— На заре внедрения LLM эта проблема была острее. Когда мы запустили большие языковые модели в 2025 году, количество галлюцинаций существенно снизилось за счет дообучения. Сегодня, в 2026-м, даже универсальные LLM крайне редко ошибаются в переводе, однако наши специализированные модели сохраняют преимущество на сложных запросах, где критически важна точность передачи нюансов.
Одним из наших подходов к улучшению качества существующей модели является постредактура, или Human-in-the-Loop. Схема такая: модель переводит текст, профессиональные редакторы-переводчики исправляют ее ошибки, и мы собираем пары «неверный перевод — исправленный вариант». Обучаясь на этих исправлениях, модель снижает вероятность повторения конкретных ошибок. Это пример применения техники «активного обучения»: мы не говорим абстрактно «переводи лучше», а показываем модели ее собственные промахи и правильные ответы.
Кроме того, у нас есть важный инструмент для пользователя — примеры употребления. Если кто-то сомневается в переводе, он может посмотреть, как это слово или фраза реально используются в литературе, фильмах, газетах. Раньше мы извлекали такие примеры из корпусов. Сейчас благодаря LLM появились еще и генеративные примеры: мы можем попросить модель объяснить значение слова в разных контекстах. Это такой встроенный механизм валидации, который помогает убедиться в достоверности предложенного варианта.
— Раньше основной метрикой качества была точность перевода. Сейчас, когда перевод стал намного естественнее, этих метрик кажется недостаточно. Как вы оцениваете качество сегодня?
— Традиционные метрики вроде BLEU, основанные на подсчете совпадений слов и фраз, сегодня уже недостаточны. Они не способны оценить естественность звучания текста, стилистические нюансы или «учесть игру слов». Сегодня перевод настолько хорош, что основные улучшения лежат в плоскости «нативности» текста, и это нужно уметь измерять.
Мы разработали собственную метрику RATE (Refined Assessment for Translation Evaluation). Ее ключевое отличие — многомерность: перевод оценивается не по одной, а по трем шкалам. Первая — точность передачи смысла, сохранность исходного значения. Вторая — естественность языка, отсутствие шаблонных конструкций, выдающих машинное происхождение. Третья — стилистическое соответствие, то есть адекватность перевода стилю оригинала, будь то официальный документ, дружеская переписка или художественный текст. Именно RATE позволяет замечать тонкие ошибки — например, излишнюю официальность в неформальном диалоге,— которые другие метрики не видят.
«Яндекс» уже применяет RATE для точечного улучшения существующих моделей, адаптируя перевод под разные сценарии — от деловой переписки до повседневного общения. В перспективе эта метрика может стать новым отраслевым стандартом, смещающим фокус с «переведено верно» на «переведено так, как сказал бы человек».
— Можно ли представить полностью автономный контур, где перевод, проверка и дообучение происходят без участия человека? Насколько индустрия близка к этому?
— Индустрия движется в эту сторону, особенно в части оценки качества. Экспериментов много, в результате возникает потребность в сравнении большого количества различных систем — как внутренних, так и внешних. Оценивать их вручную силами ограниченного числа экспертов невозможно. Поэтому мы используем автоматизированную оценку, в том числе подход LLM-as-a-Judge, где большие языковые модели выступают в роли судей. Но тут есть тонкость: если попросить LLM оценить перевод без инструкции, оценки могут быть нестабильными. Чтобы сделать процесс контролируемым, мы пишем для модели-судьи подробнейший гайдлайн: на какие типы ошибок обращать внимание, какой вес им присваивать, по каким критериям оценивать. Модель следует инструкции, и мы получаем достаточно надежную оценку.
Однако до полной автономности еще далеко. Все ключевые замеры, валидация новых метрик и финальные решения остаются за людьми. Запустить обучение без инженера невозможно, а проверить, не «съехала» ли модель под влиянием автоматических судей, могут только эксперты. Так что человек в этом цикле, вероятно, еще долго будет необходим.
— Сегодня пользователи нередко пользуются чат-ботами для перевода. Не становятся ли они конкурентами специализированным переводчикам?
— Скорее, это про разные сценарии. Универсальные чат-боты действительно неплохо справляются с переводом «из коробки», но там, где важна точность, вольный пересказ не подходит. Наши модели глубоко дообучены именно на задачу перевода, и эта узкая специализация позволяет добиваться более высокого качества при оптимальном балансе скорости и эффективности.
Кроме того, для многих задач важна контролируемость. В «Яндекс. Переводчике» всегда можно перепроверить результат с помощью примеров употребления. Это дает пользователю дополнительную возможность убедиться, что предложенный вариант действительно соответствует живой языковой практике.
Другое важное отличие — редкие языки. Универсальные модели, обученные на огромных корпусах, часто теряют качество там, где мало данных. Специализированный сервис за счет дополнительных методов способен дать перевод для башкирского, коми или тувинского.
И, наконец, бесшовность: наши технологии машинного перевода интегрированы во многие сервисы «Яндекса», позволяя переводить текст не покидая сервис и не теряя контекста. Это гораздо удобнее для пользователя.
— В чем основные сложности работы с малоресурсными языками?
— «Малоресурсность» многих языков — ключевая сложность и одновременно область научных поисков команды. С 2023 года «Яндекс. Переводчик» совместно с Домом народов России и при поддержке Федерального агентства по делам национальностей развивает проект по сохранению языков народов России.
Для создания качественных моделей при таком ограничении наши инженеры применяют специальные методы обучения. Первый подход — объединение родственных языков в одну модель, например тюркской или финно-угорской групп. Это позволяет нейросети находить общие закономерности и использовать знания об одном языке для улучшения перевода с другого.
Второй метод — обратный перевод. В этом случае с помощью нейросети переводится большой массив текстов с русского на целевой язык, а затем полученные пары используются для дообучения нейросети переводу с целевого языка на русский. Это помогает искусственно увеличить объем данных. И хотя такие переводы неидеальны, они значительно улучшают работу системы.
— К каким следующим рубежам движется машинный перевод?
— Ключевое направление — «невидимый», или бесшовный, перевод. Технология должна стать таким же стандартом, как электричество в розетке: она просто есть, и мы не думаем о том, как она работает.
Первое направление — мультимодальность. Сейчас перевод видео — это каскад: распознавание речи, перевод текста, озвучка. Будущее за моделями, которые работают одновременно со звуком, изображением и текстом, учитывают интонацию, эмоции, контекст происходящего на экране. Это позволит переводить не просто слова, а смыслы и подтекст, синхронизировать речь с движением губ.
Второе направление — учет разнопланового контекста. Например, при переводе сайта в браузере модель должна понимать структуру страницы: вот кнопка, вот заголовок, вот основной текст. От этого зависит, как переводить слово get — «скачать» или «получать». Учет расположения, формы и функции текста — следующий уровень бесшовности.
Третье направление — работа со сверхдлинным контекстом, чтобы переводить целые книги, сохраняя стиль автора, имена персонажей и сюжетные линии от первой до последней страницы без единого сбоя.
В конечном счете все эти направления сходятся в главном — в той миссии, которая у «Переводчика» с самого начала: стирать языковые барьеры. Чтобы любой контент — будь то видео, сайт или книга — был доступен на родном языке так же естественно и полноценно, как оригинал.