AI导读:

智源研究院主导的多模态大模型研究成果在顶级学术期刊Nature上发表,该成果实现了多模态数据的联合训练,并在多个任务上展现出与专用模型相媲美的性能。

北京商报讯1月28日,智源研究院主导的多模态大模型研究成果“通过预测下一个词元进行多模态学习的多模态大模型”正式上线国际顶级学术期刊Nature,预计2月12日刊发纸质版。研究显示,这是我国科研机构主导的大模型成果首次登陆Nature正刊。该研究推出的Emu3模型,核心突破在于仅采用“预测下一个词元”的自回归路线,将文本、图像、视频统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练。实验显示,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的任务专用模型相媲美。Nature编辑点评指出,该成果证明了自回归路线在多模态领域的通用性,对构建可扩展、统一的多模态智能系统具有重要意义。