DeepSeek开源FlashMLA，A股市场小幅震荡

股市热点 2025-02-24 15:58:22 来源：中国基金报作者：网络

AI导读：

2月24日，A股、港股均经历震荡调整，其中A股市场创业板指领跌。同时，DeepSeek启动“开源周”，首个开源项目为针对Hopper GPU优化的FlashMLA解码内核。港股方面，恒生科技指数下滑约0.8%。

【导读】市场震荡，Deepseek宣布开源FlashMLA技术。

中国基金报记者泰勒

大家好，今天A股、港股均经历震荡调整，让我们一同回顾市场动态。

小幅震荡格局

2月24日，A股市场全天呈现震荡调整态势，创业板指领跌。截至收盘，沪指微跌0.18%，深成指下滑0.08%，创业板指跌幅达0.67%。

市场中共有2778只个股上涨，其中91只个股涨停，而下跌个股数量为2468只。

农业股集体上扬，智慧农业、星光农机、东方集团等个股涨停。消息面上，2025年中央一号文件于2月23日发布，首次提出“农业新质生产力”概念。

基建板块表现亮眼，北方国际、中工国际、北新路桥等多只个股涨停。

DeepSeek概念股则出现震荡调整，航锦科技、浙文互联跌停，每日互动、青云科技等跌幅超过10%。

港股方面，恒生科技指数下滑约0.8%。

近期，美国白宫发布投资政策备忘录，计划调整美中双向投资政策，引发市场关注。我国商务部对此表示担忧，并呼吁美方为中国企业赴美投资提供公平环境。

DeepSeek启动开源周活动

首个开源项目为FlashMLA

2月24日，DeepSeek正式启动“开源周”活动，其首个开源项目为FlashMLA，这是一个针对Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列设计。

FlashMLA的发布包含以下亮点：

作为DeepSeek针对Hopper GPU的专属优化，FlashMLA已在生产环境中应用，旨在通过优化解码和KV缓存，降低大语言模型的推理成本，同时提升响应速度和吞吐量。

在英伟达H800 SXM5 GPU测试中，FlashMLA展现出3000GB/s的内存带宽和580TFLOPS的计算极限，凸显其内存访问和计算效率优势。

当前版本支持BF16精度，并采用64大小的分页KV缓存，确保大模型推理任务的高效执行。

FlashMLA的设计灵感源于FlashAttention 2&3及英伟达CUTLASS项目，体现了在高效注意力计算方面的优化。

通过低秩分解技术，FlashMLA在保持性能的同时压缩KV缓存，有效降低了内存需求，提升了推理效率。

FlashMLA特别适用于长序列文本处理场景，如聊天机器人、文档分析及实时翻译系统，能显著减少延迟和资源占用。

随着开源，FlashMLA有望集成至vLLM、Hugging Face Transformers等开源生态，助力更多大语言模型在相同硬件下实现高效推理。

代码中包含的内联PTX代码，使开发者能更精细地控制GPU执行流程，提升性能，并可能部分绕过英伟达生态限制。

DeepSeek上周宣布将举办“开源周”，并计划开源五个代码库。

DeepSeek强调，以透明方式与全球开发者共享研究进展，每日解锁新内容，旨在加速行业发展。该团队表示，其在线服务中的构建模块已记录、部署并测试，期待每行代码都能转化为推动行业前行的力量。

（文章来源：中国基金报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。