AI导读:

2月24日,A股、港股均经历震荡调整,其中A股市场创业板指领跌。同时,DeepSeek启动“开源周”,首个开源项目为针对Hopper GPU优化的FlashMLA解码内核。港股方面,恒生科技指数下滑约0.8%。

【导读】市场震荡,Deepseek宣布开源FlashMLA技术。

中国基金报记者泰勒

大家好,今天A股、港股均经历震荡调整,让我们一同回顾市场动态。

小幅震荡格局

2月24日,A股市场全天呈现震荡调整态势,创业板指领跌。截至收盘,沪指微跌0.18%,深成指下滑0.08%,创业板指跌幅达0.67%。

市场中共有2778只个股上涨,其中91只个股涨停,而下跌个股数量为2468只。

农业股集体上扬,智慧农业、星光农机、东方集团等个股涨停。消息面上,2025年中央一号文件于2月23日发布,首次提出“农业新质生产力”概念。

基建板块表现亮眼,北方国际、中工国际、北新路桥等多只个股涨停。

DeepSeek概念股则出现震荡调整,航锦科技、浙文互联跌停,每日互动、青云科技等跌幅超过10%。

港股方面,恒生科技指数下滑约0.8%。

近期,美国白宫发布投资政策备忘录,计划调整美中双向投资政策,引发市场关注。我国商务部对此表示担忧,并呼吁美方为中国企业赴美投资提供公平环境。

DeepSeek启动开源周活动

首个开源项目为FlashMLA

2月24日,DeepSeek正式启动“开源周”活动,其首个开源项目为FlashMLA,这是一个针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计。

FlashMLA的发布包含以下亮点:

作为DeepSeek针对Hopper GPU的专属优化,FlashMLA已在生产环境中应用,旨在通过优化解码和KV缓存,降低大语言模型的推理成本,同时提升响应速度和吞吐量。

英伟达H800 SXM5 GPU测试中,FlashMLA展现出3000GB/s的内存带宽和580TFLOPS的计算极限,凸显其内存访问和计算效率优势。

当前版本支持BF16精度,并采用64大小的分页KV缓存,确保大模型推理任务的高效执行。

FlashMLA的设计灵感源于FlashAttention 2&3及英伟达CUTLASS项目,体现了在高效注意力计算方面的优化。

通过低秩分解技术,FlashMLA在保持性能的同时压缩KV缓存,有效降低了内存需求,提升了推理效率。

FlashMLA特别适用于长序列文本处理场景,如聊天机器人、文档分析及实时翻译系统,能显著减少延迟和资源占用。

随着开源,FlashMLA有望集成至vLLM、Hugging Face Transformers等开源生态,助力更多大语言模型在相同硬件下实现高效推理。

代码中包含的内联PTX代码,使开发者能更精细地控制GPU执行流程,提升性能,并可能部分绕过英伟达生态限制。

DeepSeek上周宣布将举办“开源周”,并计划开源五个代码库。

DeepSeek强调,以透明方式与全球开发者共享研究进展,每日解锁新内容,旨在加速行业发展。该团队表示,其在线服务中的构建模块已记录、部署并测试,期待每行代码都能转化为推动行业前行的力量。

(文章来源:中国基金报)