Комментарии на пользу интеллекту

VK использовала пользовательский контент для создания генеративной нейросети

VK (MOEX: VKCO) разработала свою большую языковую модель (LLM) для генерирования текстов. За основу взяты, в частности, комментарии из открытых групп «ВКонтакте». Первые генеративные функции тестируются в сервисах Mail.ru — почте и календаре. Аналогичное применение нейросетей изучают в «Яндексе». VK, помимо потребительских сервисов Mail.ru, разрабатывает отдельные продукты для госслужащих. Эксперты видят больше перспектив именно в автоматизации рабочих задач, а не в добавлении нейросетевых функций в соцсети.

Фото: Евгений Павленко, Коммерсантъ

Фото: Евгений Павленко, Коммерсантъ

“Ъ” узнал детали технологии, которая легла в основу объявленных 26 февраля функций генерирования текстов в сервисах продуктивности Mail.ru (почте, календаре, облачном хранилище и заметках; принадлежит VK). Как пояснили в VK, компания создала для этого собственную LLM, ее тренировка проводилась на «открытых корпусах текстов из интернета и публичных данных соцсети "ВКонтакте" — постах и комментариях в открытых группах».

Собственные LLM уже есть у «Яндекса» (YandexGPT) и «Сбера» (GigaChat), оба внедряют их в свои потребительские продукты и одновременно предлагают доступ к результатам генерации сторонним разработчикам. LLM разработала и структура МТС, MTS AI (см. “Ъ” от 21 февраля). С 25 января MTS AI руководит Андрей Калинин, который до сентября 2023 года был вице-президентом VK по искусственному интеллекту (ИИ).

Команда разработки ассистента «Маруся», которая «почти полностью пересекается с командой Mail.ru», разрабатывала LLM еще при господине Калинине, пояснил знакомый с ситуацией источник “Ъ”. Сейчас должность вице-президента VK по ИИ занимает по совместительству гендиректор «Дзена» Антон Фролов.

По словам собеседника “Ъ”, при господине Калинине подразделения VK изучали перспективы создания LLM независимо: «К наработкам команды "Маруси" в других бизнес-юнитах VK относились скептически».

Рутинные задачи, по словам представителя VK, «логично распределить по категориям», поэтому нейросетевые функции тестируются на сервисах продуктивности Mail.ru. В этой категории, помимо корпоративного мессенджера VK Teams, по госконтракту с Минцифры VK разрабатывает автоматизированное рабочее место госслужащего (АРМ ГС), объединяющее почту, мессенджер, облачное хранилище и внутренний портал. Решение о дальнейшем использовании LLM будет принято по результатам тестирования на продуктах Mail.ru, говорят в компании. В «Яндекс 360» (объединяет аналогичные сервисы, в том числе почту) сообщили, что также «работают в направлении внедрения нейросетей в продукты».

Для VK имеет смысл развертывать технологию именно в сервисах продуктивности, так как «сценариев, дающих существенную экономию времени при создании контента в соцсетях, не так уж много», говорит эксперт в области ИИ и продвинутой аналитики Axenix Василий Крикунов: «В соцсетях уже главенствует легкопотребляемый контент».

Технически, говорит один из источников “Ъ”, VK способна привлечь вычислительные мощности, достаточные для тренировки LLM: «Но это могло быть сопряжено с более серьезными издержками, чем у "Яндекса" и "Сбера". VK — прежде всего контентный бизнес, а не технологический, и до бума ИИ у них не было резона делать сопоставимые вложения в мощности».

NLP-специалист Just AI Алина Савелова отмечает, что базовые LLM могут создаваться двумя способами — с нуля, как делают «Яндекс» и «Сбер», или путем дообучения сторонних моделей с открытым исходным кодом (open source): «В первом случае нужны огромные вычислительные мощности, сильная команда и существенное время — от полугода или даже от года. Во втором случае требования скромнее, но качество сравнимо». Контент из соцсетей, по ее мнению, может использоваться, но «дообучать только на нем смысла нет — компании придется привлекать разметчиков». В долгосрочной перспективе, полагает эксперт, «VK резонно иметь свою модель, а не open source».

Юрий Литвиненко

Зарегистрируйтесь или войдите, чтобы дочитать статью

Это бесплатно и вы сможете читать все закрытые статьи «Ъ»

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...