AI模型蒸馏技术突破:低成本实现高性能推理模型
AI导读:
德邦证券研报指出,AI领域迎来模型蒸馏技术突破,成本仅50美元即可实现性能媲美OpenAI的模型。斯坦福大学等研究团队成功训练出高效AI推理模型s1,DeepSeek-R1模型开源推动AI平权进程,2025年或成为大模型普惠起点。
财中社2月10日电德邦证券最新发布的计算机行业研究报告指出,AI领域迎来模型蒸馏技术的突破性进展,成本仅需50美元即可实现性能媲美OpenAI的o1与R1模型。据Tech Crunch报道,斯坦福大学和华盛顿大学的AI研究团队,包括知名学者李飞飞,在其最新研究论文中披露,他们成功以不到50美元的成本(仅云计算服务费用)训练出一个高效AI推理模型s1,这一壮举不包括服务器、显卡等硬件投入。
1)技术揭秘:该论文详细阐述了其技术路径,即通过小数据集与监督微调(SFT)实现模型蒸馏。研究团队构建了一个名为“s1K”的数据集,包含1000个精心挑选的问题,每个问题均附有推理轨迹及从Gemini Thinking Experimental蒸馏的答案。随后,在一个预训练模型上实施监督微调,仅利用16张上半年发布的GPU训练26分钟。为提升答案准确性,团队还创新性地采用了“预算强制”技术,通过控制测试时间计算,优化模型性能。
2)卓越表现:测试结果显示,在竞赛数学问题上,s1-32B模型的表现较OpenAI的o1-preview高出27%(MATH和AIME24)。尤为值得一提的是,s1在AIME24上的表现几乎与Gemini 2.0 Thinking API持平,这充分证明了其蒸馏过程的有效性。
此番低成本、开源与蒸馏技术的结合,预示着AI模型开发门槛的大幅降低,或将加速AI平权进程。据极客公园报道,深度求索公司已于2025年1月发布DeepSeek-R1推理模型正式版,采用MIT协议,同步开源模型权重,鼓励用户利用模型输出进行模型蒸馏训练。DeepSeek主动将R1作为教师模型,成功蒸馏出6个小模型并开源给社区,其中32B和70B模型在多项能力上已能与OpenAI的o1-mini相媲美。德邦证券分析认为,李飞飞团队此次通过超低成本从Gemini Thinking Experimental模型中蒸馏数据训练s1的成功案例,不仅验证了蒸馏技术在推动模型小型化与商品化中的关键作用,有望缩小开源与闭源模型性能差距,加速AI平权;更为AI应用与端侧的爆发奠定了坚实基础。
德邦证券进一步指出,从DeepSeek R1到s1的演变,标志着2025年将成为大模型普惠的元年,AI应用与端侧或将同步迎来成本下降与模型能力提升的双重利好。在蒸馏技术的推动下,Jevons悖论或将持续得到验证,更多高性价比的小模型有望涌现,推动模型从预训练向推理转变。在此背景下,国产算力有望在推理算力需求的爆发下迎来价值重估。
(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。