2025智源大会聚焦AI技术新进展,人形机器人成焦点
AI导读:
2025年智源大会上,AI技术取得迅猛进展,人形机器人成为焦点。智源研究院推出“悟界”系列大模型,强调AI从数字世界加速迈向物理世界,具身智能面临挑战与机遇,AGI仍处于起步阶段。
2025年智源大会上,人形机器人从吉祥物转变为焦点,吸引了众多关注,王兴兴成为新的焦点人物。
这一年,AI技术取得了迅猛进展,迭代周期缩短至3个月以内,并且不再局限于大语言模型,而是转化为人形机器人训练、落地的强大辅助工具。
“人工智能正在从数字世界加速迈向物理世界。”智源研究院院长王仲远在接受记者采访时指出:“人工智能应致力于解决实际问题,帮助人类摆脱繁琐、重复及简单劳动。”
AI技术路线转向世界模型
“大模型技术远未达发展巅峰,过去的‘百模大战’主要聚焦于大语言模型,而大语言模型受限于互联网数据,基础模型性能虽有提升,但速度放缓。”王仲远认为,大语言模型性能提升瓶颈的解法包括强化学习优化推理、合成高质量数据替代人工标注、激活海量未充分利用的多模态数据。
智源研究院预测,大模型的技术路线将从大语言模型向多模态,尤其是原生多模态世界模型发展。原生多模态世界模型旨在让人工智能感知和理解物理世界,促进与物理世界的交互。在宏观层面,大模型与硬件结合,通过具身智能的发展解决生产生活中的实际问题。
“这一切构成的世界模型,是实现物理AGI的关键路径。”王仲远表示,智源研究院的布局围绕这一技术趋势展开。
在2025北京智源大会上,智源研究院推出了“悟界”系列大模型,包括原生多模态世界模型Emu3等。
王仲远以咖啡杯为例解释“世界模型”内核:“现有模型能描述‘白色带文字的杯子在桌上’,但无法预测‘杯沿悬空可能坠落’——这需要时空预测能力。”Emu3的核心突破在于理解物理因果关系。
具身智能落地路径引争议
谈及具身智能的技术路线之争,王仲远表现出务实态度。
对于人形是否为具身智能的最优解,王仲远肯定人形机器人的长期价值:“社会基础设施为人类设计,双足构型更易融入,且人类行为数据利于模型训练。”
但短期内,四足、轮式等形态将共存,“人形机器人成熟周期较长,稳定性仍需突破。”他说道。
面对数据悖论,王仲远提出,可通过互联网视频数据训练基础能力,再以少量真实数据强化学习微调。
工厂场景为何优先?王仲远解释:“封闭环境可规避安全风险,且重复枯燥任务存在刚需。”他举例物流分拣、激光刻印等场景,“这些人类不愿做的工作,正是具身智能的突破口”。
王仲远表示,当前具身智能数据量不足以支持大小脑融合的模型训练,VLA模型泛化性不足,需突破专有任务,达到泛化性。
他判断,深度学习或AI 1.0时代,人工智能首先在某项能力上超越人类,进入生产生活应用,积累数据,推动大模型产生,随后发现其具备通用人工智能和跨领域可能性。
AGI处于起步阶段
MCP、Agent成为AI领域新话题,这是否意味着AI取得实质性突破?AGI发展至何阶段?
王仲远认为,大模型达到可用状态后,Agent是产业界可发力的领域。
他指出,基础大模型达到可用状态时,像水、电、操作系统一样,可基于其开发APP。现在的Agent相当于移动互联网的APP,随着能力增强,可扩展功能。
王仲远表示,“百模大战”讨论基础大模型竞争,但基础大模型将收敛,少数玩家坚持,避免资源浪费。
未来是否出现“千模大战”或“万模大战”?王仲远不排除这种可能。基础大模型进入产业,需产业数据衍生垂类模型。
“具身大模型发展仍处于早期阶段。”王仲远分析,当前具身智能面临与早期AI大模型类似的挑战,如技术路线未达成共识、产业落地需突破等。
或许,当机器人真正理解“咖啡杯放桌沿会摔碎”时,物理AGI才迎来里程碑。
(文章来源:21世纪经济报道)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。