VK подучила язык
VK обновила свою модель для генерации текстов
VK (MOEX: VKCO) представила обновленную языковую модель Diona для генерации и обработки текстов. Новая версия требует меньше ресурсов по сравнению с предыдущей, что позволило снизить нагрузку на инфраструктуру и ускорить ряд внутренних процессов. Инвестиции в ее разработку могли составить 500–800 млн руб.
Фото: Александр Миридонов, Коммерсантъ
Фото: Александр Миридонов, Коммерсантъ
О новой версии собственной языковой модели Diona “Ъ” рассказали в VK. При ее разработке использовались некоторые наработки предыдущей версии, которую тренировали на пользовательском контенте, в том числе на комментариях из открытых групп во «ВКонтакте» (см. “Ъ” от 26 февраля 2024 года). Однако также проводилось и новое базовое обучение модели на больших объемах текстов. В VK не раскрыли сумму инвестиций в разработку модели. Источник “Ъ” в крупной российской ИТ-компании оценил затраты в 500–800 млн руб.
Диапазон параметров (число внутренних переменных, определяющих, как модель распознает и обрабатывает информацию) у новой версии модели вырос в 1,5 раза и теперь, по заверению компании, составляет от 4 млрд до 30 млрд.
Обновленная модель требует меньше ресурсов по сравнению с предыдущей версией, что позволило снизить нагрузку на инфраструктуру и ускорить ряд внутренних процессов, уточнили в VK. «Она открывает новые возможности для внутренних инструментов VK и генеративных функций в продуктах холдинга. Лучше справляется с решением инженерных задач, а также с задачами генерации и суммаризации текстов»,— отметили в компании.
«Разработка собственной модели с параметрами до 30 млрд, скорее, будет стоить дороже, чем 800 млн руб.»,— считает ИТ-архитектор «1С ПРО Консалтинг» Алексей Ваганов. По его предположению, компания использовала гибридный подход: дообучение open-source модели, собственные данные и внутренние инфраструктурные ресурсы, что и позволило снизить затраты на разработку. Модели с числом параметров от 4 млрд до 30 млрд занимают средний сегмент на мировом рынке, отмечает независимый эксперт в сфере ИИ Алексей Лерон. «Для модели такой скачок по числу параметров может означать, что она из разряда специализированных переходит в класс универсальных. Хотя и по нижнему диапазону»,— считает гендиректор АНО НЦК ИСУ Кирилл Семион.
Об аппаратных мощностях и инфраструктурных решениях, на которых обучалась модель, в компании VK не рассказали, уточнив, что она обучена с использованием «внутренних вычислительных мощностей». По словам старшего разработчика систем ИИ компании Innostage Александра Лебедева, заявленный диапазон параметров хорошо подходит для запуска на потребительских видеокартах или самых доступных серверных GPU-ускорителях. «Как правило, компании, которые ставят себе локально опенсорсные решения, как раз используют модели размером 14 млрд, а лучше 32 млрд параметров. Но если мы говорим о по-настоящему сильных моделях с впечатляющими результатами, то там счет идет на сотни миллиардов параметров, вплоть до 1 трлн»,— поясняет эксперт.
1,9 триллиона рублей
может составить объем рынка технологий ИИ в 2025 году, по данным Smart Ranking.
Diona должна будет учитывать контекст объемом до 32 тыс. токенов (минимальных единиц текста, например слово или часть). Как пояснили в VK, это в восемь раз больше, чем у предыдущей версии. По меркам передовых моделей это нереволюционный показатель, считает независимый эксперт в сфере ИИ Алексей Лерон. Однако, по его словам, этого достаточно для прикладных задач: работы с документами на несколько страниц, анализа деловой переписки с историей, обработки корпоративных отчетов.
В дальнейшем VK планирует сделать языковую модель мультимодальной, чтобы она могла анализировать видео, аудио и изображения и усилить рекомендательные и поисковые алгоритмы в продуктах и сервисах компании. Однако сооснователь маркетплейса нейросетей Chad AI Артур Кольцов считает, что мультимодальные модели требуют совсем иной архитектуры и обучения. «VK уже с трудом разворачивает базовую текстовую модель. Ведущие компании только сейчас активно двигаются в направлении мультимодальности. VK сможет добавить мультимодальность через два-три года, когда появятся более эффективные архитектуры для обработки видео и улучшится доступность оборудования»,— добавляет он.