AI内存压缩技术引发存储芯片市场恐慌

股市热点 2026-03-27 00:06:00 来源：上海证券报作者：网络

AI导读：

3月26日，全球存储芯片市场因谷歌即将推出的AI内存压缩技术“TurboQuant”而引发恐慌。该技术宣称可将大语言模型推理中的缓存内存占用压缩至六分之一，并在英伟达H100 GPU上实现最高8倍的性能加速。市场担忧其将对存储硬件需求产生致命一击。

　　3月26日，全球存储芯片市场因一篇学术论文而引发恐慌。

　　存储芯片公司股价全线承压。3月26日A股收盘，恒烁股份跌超6%，兆易创新、佰维存储、朗科科技跌超5%，江波龙、北京君正等个股也纷纷跟跌。3月26日美股开盘，存储芯片板块普跌，截至北京时间22点30分，闪迪跌超6%，美光科技与西部数据跌超4%，希捷科技跌超3%。

　　这场波动的导火索来自一篇由谷歌研究院即将在国际学习表征会议（ICLR 2026）上正式亮相的学术论文。谷歌推出的新型AI内存压缩技术“TurboQuant”，宣称可将大语言模型（LLM）推理中的缓存内存占用压缩至六分之一，并在英伟达H100 GPU上实现最高8倍的性能加速。

　　目前，资本市场将其解读为对存储硬件需求的致命一击，但在恐慌性抛售背后，长期真实影响又会如何？

　　“Pied Piper”走进现实

　　TurboQuant究竟解决了什么问题？

　　当前大模型运行时的核心瓶颈之一在于“键值缓存”（KV Cache）。简单来说，当用户与AI对话时，模型需要记住之前聊过的内容（上下文），这部分临时存储的数据就是KV Cache。随着大模型上下文窗口从几千Token膨胀至百万甚至千万级别，KV Cache对内存的消耗呈指数级增长，成为制约推理成本的关键。

　　记者查阅该论文，TurboQuant本质上是一种极致的量化压缩算法。传统量化方法需要在压缩精度和额外存储开销之间妥协，而谷歌团队通过两项创新PolarQuant（极坐标量化）和 QJL（量化JL变换）实现了在“零损失”的前提下将KV Cache压缩至3-bit精度。

　　有业内人士将这一突破比作HBO经典美剧《硅谷》中那家凭借“无损压缩算法”颠覆行业的虚构创业公司Pied Piper。Cloudflare首席执行官更是将其称为谷歌的“DeepSeek时刻”，认为其有望像DeepSeek一样，通过极致效率大幅拉低AI的运行成本。

　　“条件反射”式抛售

　　对于长期沉浸在“算力即权力”“存力即国力”叙事中的资本市场而言，这项技术的问世无疑触动了敏感的神经。

　　如果单张显卡的内存吞吐效率被成倍放大，各大云服务商和企业客户未来对DRAM和HBM（高带宽内存）的物理采购量是否会断崖式下滑？这种逻辑推导直接导致了资金的避险行为。

　　这并非是存储芯片股的首次技术面恐慌。2025年初，DeepSeek发布低训练成本模型时，也曾引发市场对算力硬件需求的质疑。TurboQuant被视为同一逻辑的延续。“以软代硬”正在从故事变为现实。

　　但在科技圈的狂热与二级市场的抛售之间，华尔街投行表现出一定的冷静。

　　摩根士丹利在最新研报中明确表示，市场对此存在误读。该技术仅作用于推理阶段的键值缓存，并不影响模型权重所占用的高带宽内存（HBM），也与AI训练任务无关。

　...

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。