AI导读:

DeepSeek宣布开源5个代码库,包括FlashMLA、DeepEP、DeepGEMM等,旨在降低技术门槛和成本。此举引领AI开源新趋势,与闭源路线形成对比。同时,OpenAI发布GPT-4.5,但面临高成本争议。

  国产人工智能企业深度求索开发的大模型Deepseek开源周落下帷幕。2月28日,DeepSeek最新宣布,开源面向DeepSeek全数据访问的推进器3FS(Fire-Flyer File System)。这是一款并行文件系统,可充分利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,加速和推动DeepSeek平台上所有数据访问操作。

  DeepSeek开源周至此圆满结束。此前,2月21日午间,DeepSeek曾宣布将开源5个代码库,以完全透明的方式与全球开发者社区分享研究进展,每日解锁新内容,进一步分享新的进展,并将这一计划定义为“Open Source Week”(开源周)。此举旨在降低技术门槛和成本,让开发者能够更高效、低成本、广泛地使用大模型。

  华东师范大学数据科学与工程学院教授王伟表示,DeepSeek的开源预计将拉动更多云服务提供商,降低自建云计算中心或私有化部署成本,形成更强大的生态圈,增强与其他大模型生态体系的竞争力。他还提到,DeepSeek选择开源路线,不担心被同行超越,是因为其核心竞争模式和利润来源并非依靠售卖模型服务。

  王伟认为,DeepSeek的开源在更大意义上是在引导全球范围内的标准制定,形成更强的DeepSeek生态,吸引更多国家的开发者加入,将极大提升中国在人工智能领域的全球引领能力。如果DeepSeek在全球范围内形成较强的开源生态,将会推动国内的芯片厂商进一步适配,拥有更广阔的场景和市场,实现商业闭环。

  记者梳理了从2月24日至28日DeepSeek所有的开源项目,包括:

  2月24日,首个开源代码库FlashMLA,专为提升显卡潜力设计。

  FlashMLA是DeepSeek用于Hopper GPU的高效MLA解码内核,针对可变长度序列进行了优化,可动态分配算力,避免资源浪费,让AI翻译、内容生成等任务更快、更省成本。

  2月25日,DeepSeek宣布开源DeepEP,首个用于MoE模型训练和推理的开源EP通信库。

  DeepEP专门用于提升大模型训练效率,能高效协调多个AI专家模型(MoE架构)之间的通信,减少延迟和资源消耗,同时支持低精度计算(如FP8),进一步节省算力。

  2月26日,DeepSeek宣布开源DeepGEMM。DeepGEMM是优化矩阵乘法的工具,通过低精度计算(FP8)提升速度,再用英伟达CUDA技术修正误差,代码仅300行,安装简单,适合快速部署。

  2月27日,DeepSeek开源两个工具和一个数据集:DualPipe、EPLB,以及来自训练和推理框架的分析数据。

  DualPipe主要用于解决流水线并行中的“等待时间”问题,EPLB则用于自动平衡GPU负载。

  2月28日,DeepSeek宣布开源3FS(Fire-Flyer File System)系统。3FS采用分布式文件系统,利用高速存储和网络技术(如SSD、RDMA),让数据读取速度达到每秒6.6TB,适合海量数据训练。

  北京邮电大学智能交互设计专业副教授谭剑表示,DeepSeek的这波开源相当于在英伟达的AI护城河上架起了浮桥,这些开源模块证明了DeepSeek团队有能力深入剖解英伟达CUDA和并行计算芯片的紧密耦合模式。

  谭剑认为,这些核心库的开源将极大激发全球AI软硬件团队的创新活力,重构AI硬件运行逻辑,有力回应了之前Deepseek训练模型需要巨大算力的质疑。

  大模型行业资深观察者刘聪表示,DeepSeek这波开源堪称“业界良心”,对底层技术从业者来说十分有用。

  随着硬件资源又一次被压缩,可能会迎来一波API降价,继续引领行业的公开、透明。百度、阿里等头部大厂也纷纷宣布旗下大模型开源,开源已成为大模型新趋势。

  香港科技大学校董会主席、美国国家工程院外籍院士沈向洋表示,尽管当前闭源的份额仍然超过开源,但接下来一两年将剧烈变化,平衡开源与闭源,引领未来。

  王伟坦言,在全球范围内,开源并未形成统一。例如,头部大模型厂商OpenAI依然保持闭源路线。开源和闭源存在路线之争,这不仅是企业之间,甚至可能上升到国家层面。

  值得注意的是,人工智能的研发竞争愈发激烈。当地时间2月27日,人工智能巨头OpenAI发布GPT-4.5(研究预览版),并称其为公司迄今为止规模最大、性能最强的聊天模型。

  然而,由于持续的高投入和高成本,GPT-4.5面世面临巨大争议。王伟认为,GPT-4.5虽然具有优势,但需要耗费巨大的成本,更看好类似DeepSeek这样可持续发展的模式。

  相比之下,DeepSeek继续走低成本和性价比路线,发布降价通知,错峰时段API调用价格大幅下调。

(文章来源:澎湃新闻)