智源研究院发布Emu3.5多模态大模型 参数量达340亿
2025-10-31 07:19:37
  • 0
  • 0
  • 0

来源: 网易科技报道

10月30日,北京智源人工智能研究院宣布正式发布Emu3.5多模态世界大模型。据了解,该模型在Emu3基础上进一步升级,参数量从80亿增至340亿,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。

据介绍,Emu3.5通过大规模多模态数据训练,视频训练时长从15年提升至790年。该模型具备多模态理解与生成能力,可进行图像生成、图文编辑、动态世界模拟等任务。模型创新性地提出离散扩散自适应技术,据称在不影响性能的前提下,将单张图片推理速度提升近20倍。

智源研究院多模态大模型负责人王鑫龙介绍:“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的Scaling范式。”

智源研究院院长王仲远表示:“通过Emu3我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5则开启了多模态Scaling的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”

 
最新文章
相关阅读