国内大模型公司纷纷升级：快手“可灵AI”迭代至3.0

股市热点 2026-02-09 20:45:33 来源：每日经济新闻作者：网络

AI导读：

快手‘可灵AI’宣布上线3.0系列模型体系，包括‘智能分镜’等创新功能。在视频大范围运动、分镜、音画匹配等方面均有突破。同时，‘智能分镜’成为本轮技术升级的重点。

　　AI（人工智能）超级入口竞赛正酣，稳坐国内AI商业化第一阵营的快手“可灵AI”，自然也不会放过春节前这波冲量的机会。

　　2月4日晚间，可灵AI官宣上线可灵AI 3.0系列——“All-in-One”多模态输入与输出的大一统模型体系，包括视频3.0、视频3.0 Omni与图片3.0、图片3.0 Omni，目前已面向黑金、钻石、铂金会员上线，近期将全量开放。这也意味着，可灵AI在不到两年时间里完成了三次关键升级。与此前解决“多任务统一”与“基础一致性”的可灵AI O1模型相比，可灵AI 3.0强调从“生成画面”迈向“理解创作语言”。

　　2月9日，知名科普博主“影视飓风”的一则评测视频让字节跳动旗下视频生成模型Seedance 2.0“出圈”，评测显示其在视频大范围运动、分镜、音画匹配等方面均有突破。游戏科学CEO（首席执行官）冯骥当天也在微博公开评价了Seedance 2.0，甚至直呼“当前地表最强的视频生成模型，没有之一”。

　　图片来源：Bilibili官网截图

　　此外，同日还有消息称小红书技术团队正研发视频剪辑类AI产品OpenStoryline，目前尚在测试阶段，后续或开源。虽然小红书方面暂未回应，但国内大模型公司这波“疯狂更新”叠加春节“红包大战”的如期到来，无疑引爆了2026年AI竞赛的整体态势。

　　单纯比拼模型实力的赛段或将成为过去，抢用户、争入口、拼规模，已然是一场“生死战”。在最新这波春节“技术擂台”中，可灵3.0究竟有没有机会反超？《每日经济新闻》记者获得了为数不多的超前内测名额，一测究竟。

　　实测可灵AI 3.0“智能分镜”：初步具备镜头调度意识

　　据官方介绍，可灵AI 3.0系列模型不再局限于生成画面，而是开始理解视频创作本身。具体有何表现？可灵AI方面向《每日经济新闻》记者表示，这一能力主要体现在镜头关系、叙事节奏、角色逻辑与视听语言等方面。AI视频模型开始理解镜头、运镜、节奏和上下文关联，可针对台词设计分镜、搭配画外音，对各类高阶视听语言需求均能作出响应。

　　每经记者实测了可灵AI 3.0“智能分镜”功能，并输入包含专业名词的复杂提示词：“超高速动漫战斗，电影摄像机并行飞行，剧烈震动以展示规模感，运用远、全、中、近、特写不同景别，结合俯拍与仰拍视角。”

　　从生成视频效果来看，可灵AI 3.0生成了包含全景展现场面、中近景聚焦角色搏斗、特写捕捉冲击波和面部表情的连贯视频。打斗场面连贯性强，不再是随机堆砌炫酷画面，而是有意识地运用镜头语言来服务“战斗的暴力感与规模感”这一核心叙事。

　　图片来源：可灵AI3.0智能分镜功能实测截图

　　这说明可灵AI 3.0初步具备镜头调度意识。对于普通用户而言，这意味着用相对专业的术语描述想法，就有可能获得结构成熟、富有电影感的短片，在一定程度上降低了专业叙事影像的制作门槛。

　　此外，在多角色、多语言叙事上，可灵AI 3.0系列模型也有升级。

　　这一轮测试，每经记者输入了简单的提示词：“一人说优雅英式英语，一人说美式英语，一人穿插日语台词。”从生成效果能够看出，一是音画同步有明显提升，二是支持多语言与方言混说。

　　记者实测后发现，视频中不同角色说不同语言时，口型、面部肌肉运动甚至神态情绪都与语音高度匹配。这无疑将AI视频长期“对口型”不准的尴尬问题向前推进了一步。官方介绍称，模型通过“原生跨模态音频引擎”，实现了音色还原与提示词指代的精确对齐。而官方支持中文多种方言，也为本土化内容创作打开了空间。

　　值得注意的是，“智能分镜”已成为快手、字节跳动本轮技术升级的重点，在科普博主“影视飓风”最新发布的字节视频模型Seedance 2.0的评测中，影视飓风创始人Tim高度称赞其生成视频的精细度、分镜连续性及音画匹配度等。比如，Tim称其分镜具有“明显的角度切换”，能够像真人导演一样不断改变摄影机的位置，并直言其是“改变视频行业的AI”。

　　“一致性”升级：从“主题不崩坏”到“角色、表演、语音、叙事的跨模态统一”

　　“一致性”几乎是AI视频创作中最难攻克的问题。其不仅包括人物主体一致性，如人物不崩坏、动作连续等，还包括时序的一致性即长镜头、多镜头衔接稳定；场景与风格一致性，即多风格同框仍自然协调；多语言输出一致性，即跨语言版本仍保持视觉与角色统一等。

　　此外，商业一致性，即文字可用、不变形，商品与Logo（品牌标志）稳定等也同样重要。视频生成高度一致性的保持，是决定AI视频是否可以实现“直接交付”的关键。

　　值得注意的是，“智能分镜”已成为快手、字节跳动本轮技术升级的重点。

　　对于一致性的提升，可灵AI方面告诉记者，可灵AI 3.0 是“ All-in-One”的多模态视频模型。

　　对于普通用户而言，使用全新可灵AI 3.0模型生成一次高质量的3秒到15秒视频需要耗费36至180“灵感值”（可灵AI货币），其在C端的普及度现阶段依旧很难与免费的大语言模型抗衡。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。