A股视觉认知概念股走强，豆包发布VideoWorld视频生成模型引领AI新趋势

股市热点 2025-02-10 16:33:20 来源：科创板日报作者：网络

AI导读：

2月10日，A股视觉认知概念股午后大幅走强，创业板星宸科技等个股大幅冲高。消息面上，豆包发布VideoWorld视频生成实验模型，实现无需依赖语言模型仅凭视觉信息认知世界。该模型基于潜在动态模型技术，已在多个领域展现强大实力，有望催发更多AI应用。

2月10日，A股市场中的视觉认知概念板块表现强劲，特别是在午后交易时段，创业板上的星宸科技股价直线拉升直至涨停，与此同时，全志科技、富瀚微、虹软科技等个股也纷纷大幅冲高，展现出市场对这一领域的浓厚兴趣与高度关注。

从消息面上来看，豆包公司近期发布了名为“VideoWorld”的视频生成实验模型。据官方介绍，该模型与当前主流的Sora、DALL-E、Midjourney等多模态模型存在显著差异，VideoWorld在业界开创性地实现了无需依赖语言模型，仅凭“视觉信息”即可实现对世界的认知。这意味着，通过浏览和分析视频数据，VideoWorld能够让机器掌握推理、规划和决策等一系列复杂能力。尤为值得一提的是，在仅拥有300M参数量的条件下，VideoWorld已经展现出了令人瞩目的模型表现。

目前，该项目已经实现了代码与模型的全面开源，这无疑将为AI视觉认知领域的研究与发展注入新的活力。

在现有的AI模型中，大多依赖于语言或标签数据来进行知识学习，而很少涉及到纯视觉信号的学习。VideoWorld则打破了这一常规，通过去掉语言模型，实现了统一执行理解和推理任务的能力。这一创新之举，无疑为AI视觉认知领域的发展开辟了新的道路。

那么，VideoWorld究竟是如何实现这一突破的呢？据豆包大模型团队透露，VideoWorld基于一种名为潜在动态模型（Latent Dynamics Model，LDM）的先进技术，该技术能够高效压缩视频帧间的变化信息，在保留丰富视觉信息的同时，对关键决策和动作相关的视觉变化进行压缩，从而显著提升知识学习的效率和效果。

在不依赖任何强化学习搜索或奖励函数机制的前提下，VideoWorld已经达到了专业5段9x9围棋的水平，并能够在多种环境中执行复杂的机器人任务。这一成就，充分展示了VideoWorld在AI视觉认知领域的强大实力。

然而，尽管VideoWorld取得了诸多突破，但其在真实世界环境中的应用仍面临着诸多挑战。其中，高质量视频生成和多环境泛化等问题尤为突出。由于视频中存在大量冗余信息，这大大影响了模型的学习效率，使得视频序列的知识挖掘效率显著落后于文本形式，不利于模型对复杂知识的快速学习。因此，如何克服这些挑战，将是VideoWorld未来发展的重要方向。

AI大模型的视觉理解能力一直是AI前沿研究方向之一。对人类而言，与语言相比，“用眼睛看”无疑是门槛更低的认知方式。正如李飞飞教授在9年前的TED演讲中所提到的那样：“幼儿可以不依靠语言理解真实世界。”这一观点在AI视觉学习中同样适用。

简单来说，AI视觉学习需要大模型能够理解物品、空间和场景的整体含义，并根据识别内容进行复杂的逻辑计算。同时，根据图像信息更细腻地表述并创作也是AI视觉学习的重要能力之一。随着AI视觉学习能力的不断提升，有望催生出更多的AI应用。

长城证券此前发布的研报指出，国内AI大模型的多模态能力正在持续提升。以快手可灵AI大模型、字节豆包AI大模型等为代表的视频生成效果正在不断提升，包括精准语义理解、一致性多镜头生成、动态运镜等方面。受益于底层技术能力的升级，国内AI应用正在持续迭代，token调用量不断增长，AI应用有望从中受益。

（文章来源：科创板日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。