DeepSeek готовит к запуску мультимодальную модель V4 с контекстным окном в 1 млн токенов
Китайская компания DeepSeek собирается представить в апреле новую мультимодальную модель искусственного интеллекта DeepSeekV4. Как сообщает издание Weixin, алгоритм получит значительные улучшения по сравнению с предыдущими версиями и сможет работать с контекстным окном объемом до 1 млн токенов.
Последним крупным релизом компании стала рассуждающая модель DeepSeekR1, представленная в январе 2025 года. С тех пор крупные обновления не выпускались, однако слухи о подготовке новой версии регулярно появлялись.
По данным источников Weixin, последние месяцы команда разработчиков под руководством сооснователя компании Лян Вэньфэн занималась устранением слабых мест платформы, в том числе улучшением обработки визуального контента и развитием возможностей ИИ-поиска. Одновременно велась работа по повышению качества генерации программного кода и расширению контекстного окна. Для решения этих задач компания начала сотрудничество с Baidu.
Будущая версия DeepSeekV4 может получить десятки триллионов параметров и будет способна работать с различными типами данных — текстом, изображениями и видео. Одним из основных направлений разработки является развитие механизмов долгосрочной памяти языковых моделей. За последние полгода Лян Вэньфэн стал соавтором нескольких научных работ, посвященных именно этой теме.
Исследования команды также направлены на совершенствование базовой архитектуры алгоритма. В частности, разработчики изучают возможность внедрения модулей «условной памяти», которые должны повысить эффективность обработки данных и снизить нагрузку на вычислительные ресурсы.
Кроме того, новая модель, как ожидается, будет глубоко адаптирована под китайские ИИ-ускорители и может стать одной из первых крупных систем, полностью работающих на базе национальной вычислительной инфраструктуры.
