Tencent представила ИИ со способностью создавать 3D-миры по одному изображению

Китайская компания Tencent представила открытую ИИ-модель HunyuanWorld-Voyager, способную генерировать видеоряд с эффектом трехмерного пространства на основе одного изображения. Алгоритм позволяет моделировать движение камеры по виртуальной сцене и формировать 3D-эффект без 3D-моделирования. Каждый сгенерированный клип состоит из 49 кадров (2 секунды), а несколько видео могут объединяться в ролики продолжительностью несколько минут.

HunyuanWorld-Voyager обучена на базе более 100 тыс. видеоклипов и использует механизмы пространственной согласованности для точного расположения объектов при перемещении камеры. Модель создает кадры с обратной геометрической связью, что обеспечивает более устойчивую пространственную согласованность по сравнению с другими ИИ-генераторами видео. Тем не менее, алгоритм все еще ограничен в полном вращении сцен и долгих последовательностях.

Tencent отмечает, что HunyuanWorld-Voyager требует значительных вычислительных ресурсов: для сцен разрешением 540p рекомендуется не менее 60 ГБ видеопамяти, а для роликов в более высоком разрешении — 80 ГБ. Исходный код модели опубликован на платформе Hugging Face, однако коммерческое применение требует отдельного лицензирования.