智源研究院发布Emu3.5多模态大模型参数量达340亿-人工智能的专栏

智源研究院发布Emu3.5多模态大模型参数量达340亿

2025-10-31 07:19:37栏目：默认栏目 IP属地：IP未知

来源: 网易科技报道

10月30日，北京智源人工智能研究院宣布正式发布Emu3.5多模态世界大模型。据了解，该模型在Emu3基础上进一步升级，参数量从80亿增至340亿，在“Next-Token Prediction”范式的基础上，模拟人类自然学习方式，以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”，获得了可泛化的世界建模能力。

据介绍，Emu3.5通过大规模多模态数据训练，视频训练时长从15年提升至790年。该模型具备多模态理解与生成能力，可进行图像生成、图文编辑、动态世界模拟等任务。模型创新性地提出离散扩散自适应技术，据称在不影响性能的前提下，将单张图片推理速度提升近20倍。

智源研究院多模态大模型负责人王鑫龙介绍：“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理，指出了多模态世界模型的一种简单易扩展的Scaling范式。”

智源研究院院长王仲远表示：“通过Emu3我们验证了自回归架构实现多模态理解与生成大一统的可行性，Emu3.5则开启了多模态Scaling的新时代。更重要的是，它为通往更通用的、能够理解并与物理世界交互的通用人工智能，提供了一条坚实的、可度量的实践路径。”