AI导读:

2月10日,A股视觉认知概念股午后大幅走强,创业板星宸科技等纷纷大幅冲高。豆包发布VideoWorld视频生成实验模型,该模型无需依赖语言模型,仅通过视觉信息即可认知世界,引领AI视觉学习新潮流。随着AI技术的不断发展,国内AI大模型多模态能力持续提升,未来有望催生出更多的AI应用。


2月10日,A股市场中的视觉认知概念板块午后显著走强,其中创业板明星企业星宸科技股价直线拉升直至涨停,全志科技、富瀚微、虹软科技等视觉认知相关企业也纷纷跟随大幅冲高。这一波涨势背后,有消息称豆包公司发布了全新的视频生成实验模型——VideoWorld。

VideoWorld模型在业界独树一帜,它首次实现了无需依赖语言模型,仅凭“视觉信息”即可对世界进行认知的突破。通过浏览视频数据,该模型能够赋予机器推理、规划和决策等复杂能力。据团队实验显示,在仅300M参数量的配置下,VideoWorld已展现出了令人瞩目的模型表现。

目前,VideoWorld的项目代码与模型已经全面开源,这无疑为视觉认知领域的研究者提供了宝贵的资源和参考。

相较于现有的大多数模型,它们往往依赖于语言或标签数据来学习知识,而VideoWorld则摒弃了这一传统路径,选择了去掉语言模型,实现了统一执行理解和推理任务的新模式。这一创新之举,无疑为AI视觉学习领域带来了新的曙光。

豆包大模型团队透露,VideoWorld模型基于一种名为潜在动态模型(Latent Dynamics Model,LDM)的技术,该技术能够高效地压缩视频帧间的变化信息,从而在保留丰富视觉信息的同时,有效地压缩了与关键决策和动作相关的视觉变化。这一特性,显著提升了知识学习的效率和效果。

值得一提的是,VideoWorld模型在不依赖任何强化学习搜索或奖励函数机制的前提下,已经达到了专业5段9x9围棋的水平,并能够在多种环境中执行机器人任务。然而,尽管VideoWorld取得了显著的成果,但其在真实世界环境中的应用仍面临着诸多挑战,如高质量视频生成和多环境泛化等。

其中,视频中存在的大量冗余信息,对模型的学习效率构成了不小的挑战。这使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。尽管如此,AI视觉学习能力的提升仍然被视为有望催发更多AI应用的关键因素之一。

随着AI技术的不断发展,大模型的视觉理解能力已成为AI前沿研究方向的热点之一。对人类而言,“用眼睛看”是一种门槛更低的认知方式。正如李飞飞教授多年前在TED演讲中所提到的那样,幼儿可以不依靠语言来理解真实世界。同样地,AI视觉学习也需要大模型能够理解物品、空间和场景的整体含义,并根据识别内容进行复杂的逻辑计算,从而更细腻地表述并创作图像信息。

随着国内AI大模型多模态能力的持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成的效果正在不断提升。这些模型在精准语义理解、一致性多镜头生成、动态运镜等方面取得了显著进展。受益于底层技术能力的升级,国内AI应用正在持续迭代,token调用量不断增长。未来,随着AI视觉学习能力的进一步提升,有望催生出更多的AI应用,为各行各业带来更加智能化、高效化的解决方案。

(文章来源:科创板日报)