AI导读:

DeepSeek以迅猛之势搅乱AI江湖,大模型“六小虎”面临高昂训练成本、人才争夺战等多重挑战,亟需寻找破局之法。文章带来深度、专业且富有前瞻性的行业洞察。

编者按:DeepSeek的爆火不仅掀起技术狂欢,更将中国大模型创业圈推入价值重估的十字路口。当行业开始追问“为什么大模型六小虎没有成为DeepSeek”时,更深层的行业洗牌暗流已然涌动。

科创板日报》将推出系列报道,追踪国内外基础大模型、AI应用创业及投资的发展,力求还原真实、全面且充满活力的大模型行业全景,带来深度、专业且富有前瞻性的行业洞察。

DeepSeek以迅猛之势搅乱AI江湖原有格局,之前独领风骚的AI“六小虎”正面临“破局”关键时刻。

某央企技术负责人表示,DeepSeek给业界指了“明路”:使用强化学习加高质量Long CoT数据,可令大模型显著提升推理能力,大幅降低算力资源成本。

最新消息显示,字节CEO梁汝波反思DeepSeek跟进速度不够,今年追求智能上限。OpenAI首席执行官Sam Altman也宣布GPT 4升级,智力达o3 pro水平,表示更新后的GPT 4仍是最好的AI搜索产品。

这意味着2025年大模型领域将迎来全方位竞争。然而,面对高昂训练成本、人才争夺战、用户留存与投流成本剪刀差,以及DeepSeek搅局、大厂追击,AI“六小虎”亟需探明前路。

DeepSeek崛起前,AI“六小虎”崭露头角,吸引大量资本注入。数据显示,2024年AI“六小虎”融资火爆,月之暗面、智谱等表现亮眼。

高昂训练成本对资金相对薄弱的AI“六小虎”是巨大挑战;巨额投流也使C端营销成本攀升。一位投资人表示,由于月之暗面的Kimi与DeepSeek均涉及国内to C领域大语言模型,技术路径不同,Kimi尤为受关注。

在技术路线上,智谱、百川智能、零一万物、MiniMax、阶跃星辰与DeepSeek一样,采用MoE模型训练。在C端产品对垒中,DeepSeek-R1模型发布当天,Kimi也发布Kimi k1.5,强调超长逻辑链能力。

一位不愿具名的投资人分析,DeepSeek开源情况下,Kimi k1.5总体成本高于DeepSeek。DeepSeek“思考”部分很长,输出长度可能是别人的好几倍,使Kimi获客成本很高。

用户活跃度上,Kimi的C端领域标杆产品月活已受冲击。第三方榜单显示,1月份豆包以7861万MAU位列榜首;DeepSeek为3370万MAU;Kimi位列第三,MAU为1943万。

原金沙江投资人、月之暗面联合创始人张予彤发声,称Kimi新版本上线后用户量创新高,长文本+推理让搜索问答更全面、及时、准确;多模态能力让Kimi能看懂现实世界的复杂问题。

各公司纷纷接入DeepSeek时,大模型创业公司面临“基础模型架构创新”时刻。多位投资人表示,大模型核心是技术创新,需加大研发投入,探索新技术路径,提升模型性能和智能化水平。

归根结底,这是“人才”竞争。某产业机构投资人士表示,人才价值在于及时调整和优化模型,寻找新架构方向;面向应用端有效落地,顶尖人才汇聚能在高价值领域构建价值产品,实现商业模式快速验证与创收。

字节迅速推出稀疏架构得益于AI人才积累。2024年,张一鸣亲自下场挖人,包括原阿里通义千问大模型技术负责人周畅加入字节,年薪高达8位数。DeepSeek更是以擅于挖掘人才著称,仍在以百万年薪“招兵买马”。

传统大厂庞大研发团队、海量数据资源也让“六小虎”感到压力。大厂不断推出AI新产品和服务的能力,以及基础设施建设、产学研合作等方面优势明显,使行业竞争加剧。

李开复曾公开透露,一次预训练成本约三四百万美元。这意味着在大模型预训练上,烧钱是公认事实。大厂、DeepSeek均实力雄厚,大模型创业公司后续融资或许与预期算力消耗有关。

DeepSeek、大厂的双重夹击,让AI“六小虎”不得不寻找“破局”之法。零一万物已做出选择,决定放弃原计划开发的超大杯模型,进入B端市场。智谱CEO张鹏称将All in AGI,每天都在优化。

MiniMax发布并开源新一代01系列模型,支持最多400万个token的上下文输入;百川智能专注于大模型在医疗领域应用落地,与国家儿童医学中心北京儿童医院签署战略合作协议。

某央企技术负责人表示,DeepSeek的模型架构和训练模式证明了大模型在推理过程中可生成大量高质量训练数据,印证了行业对“合成数据”价值共识。

因此,谁拥有更多用户,就将拥有更多高质量数据,实现“左脚踩右脚”式模型迭代。这种“自我强化”飞轮效应使DeepSeek实现“正循环”,持续突破技术天花板。

面对DeepSeek技术、开源优势,AI“六小虎”亟需证明自己的产品,特别是“用户数”和“留存用户数”两个关键指标。没有规模增长用户留存数,其产品、技术、模型能力可能受质疑,为后续融资埋下隐患。

大模型的“特色价值”是关键。大模型企业需从最基础、最本质的模型下手,提升模型效果,在高价值场景具有突出能力、牢固占据板块、拥有稳定市场基本盘(即用户数),这与成本优化、人才队伍及企业愿景息息相关。

大模型公司估值上限则是企业服务的应用领域。大模型本身不是创收与壁垒高地,只有聚焦高价值应用场景,并在市场形成稳固产品与业务壁垒,才是获取资本信任与长期价值的关键。

智谱、百川智能在采取进一步行动,除了自身业务聚焦外,还成立投资基金,带动产业链上下游,推进应用场景落地。

(文章来源:财联社)