Коммерсантъ FM

«Яндекс» представил обновленную ИИ-модель для генерации изображений с русскоязычным текстом

«Яндекс» запустил обновленную версию собственной визуально-генеративной модели Alice AI ART, которая решает проблему создания изображений с русскоязычными надписями. Модель будет доступна как пользователям чата с Алисой AI, так и корпоративным клиентам через Yandex AI Studio, на этой платформе ее также можно интегрировать в ИИ-агентов.

Фото: Алексей Зотов, Коммерсантъ

Фото: Алексей Зотов, Коммерсантъ

В компании заявили, что новая модель позволяет создавать изображения с «верными и более длинными надписями на русском языке». Пользователи смогут генерировать постеры, открытки и афиши, а бизнес — рекламные материалы, презентации и лендинги.

В «Яндексе» отметили, что существующие нейросети часто ошибаются при генерации русскоязычного текста из-за недостаточного объема данных на русском языке в открытых датасетах. Для решения этой проблемы компания обучила Alice AI ART на собственном наборе данных. На этапе предобучения в модель добавили 30 млн примеров с текстами, а для тонкой настройки — около 100 тыс. изображений с детальной разметкой.

Также для повышения качества генерации разработчики изменили архитектуру модели и внедрили механизм рефразирования запросов. В частности, система преобразует неопределенные формулировки вроде «наша столица» в более конкретные образы, например «Москва».

По данным компании, после обновления нейросеть стала в три раза чаще генерировать картинки с корректным русскоязычным текстом при использовании простых приемов: заключать текст в кавычки, писать сложные слова заглавными буквами, разбивать длинные надписи на более короткие фразы.

В «Яндексе» также утверждают, что модель стала лучше учитывать российский культурный контекст. Так, по запросу «русский народный ансамбль» нейросеть создает изображения с гармонистами и балалаечниками, а по запросу о праздничном столе — с икрой, соленьями и самоваром.

Для корпоративных клиентов компания представила инструмент Image Generation Tool, который позволит использовать генерацию изображений в составе ИИ-агентов. Предполагается, что такие агенты смогут автоматически создавать изображения для карточек товаров на маркетплейсах или рекламных материалов, используя данные из корпоративных систем и брендбуков.