DeepSeek领跑开源大模型,AI算力需求持续攀升
AI导读:
国信证券研报指出,DeepSeek在开源大模型技术与生态领域取得显著进展,其模型已成为全球焦点。随着AI应用的爆发,算力需求持续攀升,DeepSeek的技术创新和领先地位为全球AI大模型的发展树立了新标杆,为算力市场的增长提供了新动力。
财中社2月7日电 国信证券最新研报指出,DeepSeek在开源大模型技术与生态领域取得了显著进展,其模型已成为全球范围内的焦点。DeepSeek(深度求索)公司,自2023年7月成立以来,便致力于实现通用人工智能(AGI)的突破。2024年12月,该公司推出的DeepSeek-V3模型,在性能上已与海外领先的闭源模型比肩。据官方技术论文透露,V3模型的总训练成本仅为557.6万美元,远低于GPT-4等模型约1亿美元的训练成本。进入2025年1月,DeepSeek再次发力,发布了DeepSeek-R1模型,其性能与OpenAI的GPT-4(特指OpenAI-o1正式版,为表述清晰此处做具体说明)不相上下,特别是在数学、代码、自然语言推理等任务上表现突出。2月1日,彭博社报道显示,DeepSeek的人工智能助手在多个市场下载量最高的移动应用排行榜中名列前茅。
不仅如此,DeepSeek的技术创新也备受瞩目。公司通过MLA(多头潜在注意力)和DeepSeekMoE架构实现了高效的推理和低成本训练。其中,MLA技术通过低秩联合压缩技术大幅削减了内存需求,而DeepSeekMoE架构则采用更为精细粒度的专家设置,提升了运行效率和表现。此外,DeepSeek还优化了跨节点的全对全通信机制,创新性提出了DualPipe算法,采用FP8混合精度训练技术,不仅加快了训练速度,还降低了GPU内存消耗。DeepSeek-R1-Zero更是通过强化学习架构创新,实现了突破性性能。
随着AI应用的爆发,算力需求持续攀升。Scaling Law与“涌现”能力作为大模型训练的重要法则,正引领着全球AI浪潮。截至2024年7月,全球AI大模型数量已达约1328个,其中美国占比44%,位居第一;中国占比36%,位居第二。模型的迭代加速和竞争加剧,同时AI模型也在向多模态全方位转变,AI应用百花齐放。因此,模型数量、模型参数、数据总量的持续增长以及AI应用需求的增加,共同推动了全球算力的爆发式增长。英伟达GPU因其架构的不断演进和算力的成倍增长,在AI大模型训练中得到了广泛应用。而为了满足CSP客户更高性能和更好功能的需求,定制化芯片ASIC的需求也在持续提升。与之相应的算力基础设施也在持续建设和升级,促使国内外云服务商资本开支持续高速增长,AI服务器市场规模大幅提升。
在此背景下,DeepSeek的快速发展无疑为AI领域注入了新的活力。其技术创新和领先地位不仅为全球AI大模型的发展树立了新的标杆,也为算力市场的增长提供了新的动力。
(文章来源:财中社,部分数据来源于研报及公开资料)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。