国内大模型公司纷纷升级:快手“可灵AI”迭代至3.0
AI导读:
快手‘可灵AI’宣布上线3.0系列模型体系,包括‘智能分镜’等创新功能。在视频大范围运动、分镜、音画匹配等方面均有突破。同时,‘智能分镜’成为本轮技术升级的重点。
AI(人工智能)超级入口竞赛正酣,稳坐国内AI商业化第一阵营的快手“可灵AI”,自然也不会放过春节前这波冲量的机会。
2月4日晚间,可灵AI官宣上线可灵AI 3.0系列——“All-in-One”多模态输入与输出的大一统模型体系,包括视频3.0、视频3.0 Omni与图片3.0、图片3.0 Omni,目前已面向黑金、钻石、铂金会员上线,近期将全量开放。这也意味着,可灵AI在不到两年时间里完成了三次关键升级。与此前解决“多任务统一”与“基础一致性”的可灵AI O1模型相比,可灵AI 3.0强调从“生成画面”迈向“理解创作语言”。
2月9日,知名科普博主“影视飓风”的一则评测视频让字节跳动旗下视频生成模型Seedance 2.0“出圈”,评测显示其在视频大范围运动、分镜、音画匹配等方面均有突破。游戏科学CEO(首席执行官)冯骥当天也在微博公开评价了Seedance 2.0,甚至直呼“当前地表最强的视频生成模型,没有之一”。
图片来源:Bilibili官网截图
此外,同日还有消息称小红书技术团队正研发视频剪辑类AI产品OpenStoryline,目前尚在测试阶段,后续或开源。虽然小红书方面暂未回应,但国内大模型公司这波“疯狂更新”叠加春节“红包大战”的如期到来,无疑引爆了2026年AI竞赛的整体态势。
单纯比拼模型实力的赛段或将成为过去,抢用户、争入口、拼规模,已然是一场“生死战”。在最新这波春节“技术擂台”中,可灵3.0究竟有没有机会反超?《每日经济新闻》记者获得了为数不多的超前内测名额,一测究竟。
实测可灵AI 3.0“智能分镜”:初步具备镜头调度意识
据官方介绍,可灵AI 3.0系列模型不再局限于生成画面,而是开始理解视频创作本身。具体有何表现?可灵AI方面向《每日经济新闻》记者表示,这一能力主要体现在镜头关系、叙事节奏、角色逻辑与视听语言等方面。AI视频模型开始理解镜头、运镜、节奏和上下文关联,可针对台词设计分镜、搭配画外音,对各类高阶视听语言需求均能作出响应。
每经记者实测了可灵AI 3.0“智能分镜”功能,并输入包含专业名词的复杂提示词:“超高速动漫战斗,电影摄像机并行飞行,剧烈震动以展示规模感,运用远、全、中、近、特写不同景别,结合俯拍与仰拍视角。”
从生成视频效果来看,可灵AI 3.0生成了包含全景展现场面、中近景聚焦角色搏斗、特写捕捉冲击波和面部表情的连贯视频。打斗场面连贯性强,不再是随机堆砌炫酷画面,而是有意识地运用镜头语言来服务“战斗的暴力感与规模感”这一核心叙事。
图片来源:可灵AI3.0智能分镜功能实测截图
这说明可灵AI 3.0初步具备镜头调度意识。对于普通用户而言,这意味着用相对专业的术语描述想法,就有可能获得结构成熟、富有电影感的短片,在一定程度上降低了专业叙事影像的制作门槛。
此外,在多角色、多语言叙事上,可灵AI 3.0系列模型也有升级。
这一轮测试,每经记者输入了简单的提示词:“一人说优雅英式英语,一人说美式英语,一人穿插日语台词。”从生成效果能够看出,一是音画同步有明显提升,二是支持多语言与方言混说。
记者实测后发现,视频中不同角色说不同语言时,口型、面部肌肉运动甚至神态情绪都与语音高度匹配。这无疑将AI视频长期“对口型”不准的尴尬问题向前推进了一步。官方介绍称,模型通过“原生跨模态音频引擎”,实现了音色还原与提示词指代的精确对齐。而官方支持中文多种方言,也为本土化内容创作打开了空间。
值得注意的是,“智能分镜”已成为快手、字节跳动本轮技术升级的重点,在科普博主“影视飓风”最新发布的字节视频模型Seedance 2.0的评测中,影视飓风创始人Tim高度称赞其生成视频的精细度、分镜连续性及音画匹配度等。比如,Tim称其分镜具有“明显的角度切换”,能够像真人导演一样不断改变摄影机的位置,并直言其是“改变视频行业的AI”。
“一致性”升级:从“主题不崩坏”到“角色、表演、语音、叙事的跨模态统一”
“一致性”几乎是AI视频创作中最难攻克的问题。其不仅包括人物主体一致性,如人物不崩坏、动作连续等,还包括时序的一致性即长镜头、多镜头衔接稳定;场景与风格一致性,即多风格同框仍自然协调;多语言输出一致性,即跨语言版本仍保持视觉与角色统一等。
此外,商业一致性,即文字可用、不变形,商品与Logo(品牌标志)稳定等也同样重要。视频生成高度一致性的保持,是决定AI视频是否可以实现“直接交付”的关键。
此外,商业一致性,即文字可用、不变形,商品与Logo(品牌标志)稳定等也同样重要。视频生成高度一致性的保持,是决定AI视频是否可以实现“直接交付”的关键。
值得注意的是,“智能分镜”已成为快手、字节跳动本轮技术升级的重点。
对于一致性的提升,可灵AI方面告诉记者,可灵AI 3.0 是“ All-in-One”的多模态视频模型。
对于普通用户而言,使用全新可灵AI 3.0模型生成一次高质量的3秒到15秒视频需要耗费36至180“灵感值”(可灵AI货币),其在C端的普及度现阶段依旧很难与免费的大语言模型抗衡。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

