AI导读:

DeepSeek在知乎发布《DeepSeek-V3/R1推理系统概览》技术文章,披露成本利润率高达545%,刷新全球AI大模型盈利天花板。其开源策略与成本控制能力打破资源垄断,向行业传递AI大模型盈利闭环已成现实的信号。

周六,国内AI大模型公司Deepseek官方账号在知乎首次发布《DeepSeek-V3/R1推理系统概览》技术文章,详细阐述了其推理系统的核心优化方案,并首次公开了成本利润率等关键数据,这一举动在行业内引起了巨大震动。

数据显示,若按理论定价计算,DeepSeek的单日成本利润率竟高达545%,这一惊人数字刷新了全球AI大模型领域的盈利记录。

业内专家分析,DeepSeek的开源策略与卓越的成本控制能力正在逐步打破AI领域的资源垄断局面。此次DeepSeek“透明化”披露关键信息,不仅充分展示了其强大的技术实力与广阔的商业潜力,更向整个行业传递了一个明确信号:AI大模型的盈利闭环已经从理想变为现实。

DeepSeek最新发布

3月1日,DeepSeek在知乎平台开设官方账号,并发布了《DeepSeek-V3/R1推理系统概览》技术文章。文章中,DeepSeek首次公布了模型推理系统的优化细节,并披露了成本利润率这一关键信息。

文章指出,“DeepSeek-V3/R1推理系统的优化目标是实现更大的吞吐量和更低的延迟。”为实现这两个目标,DeepSeek采用了大规模跨节点专家并行(EP)方案,但该方案也增加了系统的复杂性。文章详细阐述了如何使用EP增长批量大小(batch size)、隐藏传输耗时以及进行负载均衡。

值得注意的是,文章还率先披露了DeepSeek的理论成本和利润率等核心数据。

据DeepSeek官方披露,DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用FP8格式,core-attention计算和combine传输采用BF16,以确保服务效果的最大化。

此外,针对白天和夜晚服务负荷的差异,DeepSeek设计了一套灵活的机制。在白天服务负荷高时,使用所有节点部署推理服务;而在夜晚服务负荷低时,则减少推理节点,将多余资源用于研究和训练。

在最近24小时(2025年2月27日12:00至28日12:00)的统计周期内,若按GPU租赁成本2美元/小时计算,DeepSeek的日均成本为87072美元;而若按R1定价(输入1元/百万token、输出16元/百万token)计算,其单日收入可达562027美元,成本利润率高达545%。

然而,DeepSeek官方也坦言,实际上并未达到这一收入水平,因为V3的定价更低,且收费服务仅占一部分,夜间还会有折扣。

DeepSeek的高利润率得益于其创新的推理系统设计,该系统主要包括大规模跨节点专家并行(EP)、计算通信重叠与负载均衡优化三大技术支柱。其中,EP策略通过提升吞吐与响应速度,针对模型稀疏性采用EP策略扩展总体批处理规模(batch size),确保每个专家获得足够的计算负载,从而显著提升GPU利用率。

在计算与通信重叠方面,DeepSeek通过Prefill阶段的“双batch交错”实现计算与通信并行,Decode阶段则拆分attention为多级流水线,最大限度掩盖通信开销。

在全局负载均衡方面,DeepSeek针对不同并行模式设计动态负载均衡器,确保各GPU的计算量、通信量及KVCache占用均衡,避免资源浪费。

简而言之,EP就像“多人协作”,将模型中的“专家”分散到多张GPU上进行计算,从而大幅提升Batch Size,充分利用GPU算力,同时降低内存压力,实现更快响应。

DeepSeek在工程层面也采取了多项措施进一步压缩成本。例如,通过昼夜资源调配最大化硬件利用率;利用KVCache硬盘缓存减少重复计算,提高缓存命中率至56.3%,大幅降低算力消耗。

影响深远

有分析认为,DeepSeek此次披露的数据不仅验证了其技术路线的商业可行性,更为行业树立了高效盈利的标杆。其模型训练成本仅为同类产品的1%—5%,推理定价也具有明显优势,这标志着AI技术正从实验室迈向产业化。

业内专家指出,DeepSeek的开源策略与成本控制能力正在逐步打破AI领域的资源垄断局面。此次“透明化”披露关键信息,不仅展示了DeepSeek的技术实力与商业潜力,更向行业传递了一个明确信号:AI大模型的盈利闭环已经从理想变为现实。

中信证券认为,Deepseek在降低模型训练成本方面的成功实践,将激励科技巨头采用更为经济的方式加速前沿模型的探索和研究,同时推动大量AI应用的解锁和落地。算法训练带来的规模报酬递增效应以及单位算力成本降低对应的杰文斯悖论等,均表明科技巨头在AI算力领域的持续、规模投入将是高确定性事件。

本周以来,DeepSeek开启“开源周”,给人工智能领域带来了诸多重磅消息。回顾DeepSeek这五天开源的内容,信息量巨大:

周一,DeepSeek宣布开源FlashMLA,这是用于Hopper GPU的高效MLA解码内核,现已投入生产使用;

周二,DeepSeek宣布开源DeepEP,即首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核;

周三,DeepSeek宣布开源DeepGEMM,其同时支持密集布局和两种MoE布局,可为V3/R1模型的训练和推理提供强大支持;

周四,DeepSeek宣布开源Optimized Parallelism Strategies,主要针对大规模模型训练中的效率问题;

周五,DeepSeek宣布开源Fire-Flyer文件系统(3FS)以及基于3FS的数据处理框架Smallpond。

因此,有网友评论称:“《DeepSeek-V3/R1推理系统概览》技术文章是‘开源周彩蛋’,直接亮出了DeepSeek的底牌!”

至此,DeepSeek“开源周”的连载或许要告一段落了,但DeepSeek后续的动作依然值得持续关注。

(文章来源:读创)