A股视觉认知概念股走强,豆包发布VideoWorld视频生成模型引领AI新趋势
AI导读:
2月10日,A股视觉认知概念股午后大幅走强,创业板星宸科技等个股大幅冲高。消息面上,豆包发布VideoWorld视频生成实验模型,实现无需依赖语言模型仅凭视觉信息认知世界。该模型基于潜在动态模型技术,已在多个领域展现强大实力,有望催发更多AI应用。
2月10日,A股市场中的视觉认知概念板块表现强劲,特别是在午后交易时段,创业板上的星宸科技股价直线拉升直至涨停,与此同时,全志科技、富瀚微、虹软科技等个股也纷纷大幅冲高,展现出市场对这一领域的浓厚兴趣与高度关注。

从消息面上来看,豆包公司近期发布了名为“VideoWorld”的视频生成实验模型。据官方介绍,该模型与当前主流的Sora、DALL-E、Midjourney等多模态模型存在显著差异,VideoWorld在业界开创性地实现了无需依赖语言模型,仅凭“视觉信息”即可实现对世界的认知。这意味着,通过浏览和分析视频数据,VideoWorld能够让机器掌握推理、规划和决策等一系列复杂能力。尤为值得一提的是,在仅拥有300M参数量的条件下,VideoWorld已经展现出了令人瞩目的模型表现。
目前,该项目已经实现了代码与模型的全面开源,这无疑将为AI视觉认知领域的研究与发展注入新的活力。

在现有的AI模型中,大多依赖于语言或标签数据来进行知识学习,而很少涉及到纯视觉信号的学习。VideoWorld则打破了这一常规,通过去掉语言模型,实现了统一执行理解和推理任务的能力。这一创新之举,无疑为AI视觉认知领域的发展开辟了新的道路。
那么,VideoWorld究竟是如何实现这一突破的呢?据豆包大模型团队透露,VideoWorld基于一种名为潜在动态模型(Latent Dynamics Model,LDM)的先进技术,该技术能够高效压缩视频帧间的变化信息,在保留丰富视觉信息的同时,对关键决策和动作相关的视觉变化进行压缩,从而显著提升知识学习的效率和效果。
在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld已经达到了专业5段9x9围棋的水平,并能够在多种环境中执行复杂的机器人任务。这一成就,充分展示了VideoWorld在AI视觉认知领域的强大实力。
然而,尽管VideoWorld取得了诸多突破,但其在真实世界环境中的应用仍面临着诸多挑战。其中,高质量视频生成和多环境泛化等问题尤为突出。由于视频中存在大量冗余信息,这大大影响了模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。因此,如何克服这些挑战,将是VideoWorld未来发展的重要方向。
AI大模型的视觉理解能力一直是AI前沿研究方向之一。对人类而言,与语言相比,“用眼睛看”无疑是门槛更低的认知方式。正如李飞飞教授在9年前的TED演讲中所提到的那样:“幼儿可以不依靠语言理解真实世界。”这一观点在AI视觉学习中同样适用。
简单来说,AI视觉学习需要大模型能够理解物品、空间和场景的整体含义,并根据识别内容进行复杂的逻辑计算。同时,根据图像信息更细腻地表述并创作也是AI视觉学习的重要能力之一。随着AI视觉学习能力的不断提升,有望催生出更多的AI应用。
长城证券此前发布的研报指出,国内AI大模型的多模态能力正在持续提升。以快手可灵AI大模型、字节豆包AI大模型等为代表的视频生成效果正在不断提升,包括精准语义理解、一致性多镜头生成、动态运镜等方面。受益于底层技术能力的升级,国内AI应用正在持续迭代,token调用量不断增长,AI应用有望从中受益。
(文章来源:科创板日报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。