智源研究院发布Emu3.5多模态大模型 参数量达340亿
来源: 网易科技报道
10月30日,北京智源人工智能研究院宣布正式发布Emu3.5多模态世界大模型。据了解,该模型在Emu3基础上进一步升级,参数量从80亿增至340亿,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。
据介绍,Emu3.5通过大规模多模态数据训练,视频训练时长从15年提升至790年。该模型具备多模态理解与生成能力,可进行图像生成、图文编辑、动态世界模拟等任务。模型创新性地提出离散扩散自适应技术,据称在不影响性能的前提下,将单张图片推理速度提升近20倍。
智源研究院多模态大模型负责人王鑫龙介绍:“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的Scaling范式。”
智源研究院院长王仲远表示:“通过Emu3我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5则开启了多模态Scaling的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”
红包分享
钱包管理

