Новая языковая модель от DeepSeek тратит вдвое меньше энергии

Китайский разработчик искусственного интеллекта DeepSeek представил новую версию языковой модели — DeepSeek-V3.2-Exp.

Как заявляет сама компания, ей удалось добиться снижения энергозатрат, необходимых для работы модели, на 50%, при этом сохранив точность ответов на прежнем уровне. Достичь этого, отмечает компания, она смогла за счет внедрения нового принципа работы — схемы разреженного внимания. Модель перестала анализировать все возможные связи между словами, а обрабатывает только самые важные из них.

В приведенной компанией сводной таблице показателей работы V3.2-Exp и V3.1-Terminus видно, что по большинству ключевых метрик эффективности работы новая версия почти не уступает предшественнику, а с некоторыми задачами справляется даже эффективнее.

Кирилл Сарханянц