AI导读:

小米宣布开源首个为推理而生的大模型Xiaomi MiMo,仅用70亿参数在多项测试中超越大规模模型,展现“以小博大”实力。该消息提振小米股价,同时带动金山云和金山软件大涨。小米全面发力AI大模型,致力于将AI与自身业务深度协同。

  小米进军大模型领域,展现出了其最擅长的“以小博大”策略。

  4月30日,小米宣布开源首个专为推理设计的大模型Xiaomi MiMo。令人瞩目的是,其经过强化学习训练的MiMo-7B-RL模型,仅凭70亿参数,在多项权威基准测试中超越了OpenAI的闭源推理模型o1-mini和阿里通义千问320亿参数的QwQ-32B-Preview,实现了“以小博大”的壮举。

  受该消息提振,小米股价当日上涨5.37%,同时带动金山云和金山软件分别大涨14.20%和7.07%。业内人士指出,小米作为国产手机头部品牌,此次开源的小参数规模模型展现出强大的性能,为AI在手机端侧的应用和运行奠定了坚实的基础。

  小米开源MiMo推理大模型

  4月30日,小米正式推出专为推理打造的Xiaomi MiMo大模型。据透露,在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)的公开测评中,MiMo以7B的参数规模,力压OpenAI的o1-mini和阿里Qwen更大规模的QwQ-32B-Preview。

  凭借70亿的小规模参数,MiMo实现了卓越的性能,彰显了小米“以小博大”的实力。这一成就的取得,得益于团队在预训练和后训练的数据及算法上的多层组合创新。预训练阶段,模型广泛涉猎推理领域知识;后训练阶段,则专注于打磨高效稳定的强化学习算法及框架。

  MiMo背后蕴含了诸多技术细节,如采用改进的组相对策略优化(GRPO)算法进行训练,移除KL损失、引入动态采样和增加上界裁剪等策略;提出测试难度驱动的奖励机制,按难度分组测试用例并分配奖励;以及采用易数据过滤和重采样策略,提高采样效率并稳定策略更新等。

  小米大模型团队已公开MiMo的技术报告,详细介绍了相关技术细节。此外,MiMo-7B全系列已全面开源,包括预训练模型MiMo-7B-Base、监督微调模型MiMo-7B-SFT以及强化学习模型MiMo-7B-RL和MiMo-7B-RL-Zero。

  小米大模型团队表示,MiMo是全新成立的“小米大模型Core团队”的初步尝试。业内人士普遍认为,MiMo的开源标志着AI发展正从盲目追求参数规模转向注重算法效率和能力密度的理性阶段。通过技术创新,小模型同样能实现高效率、大智慧,引领“性价比革命”。

  小米全面发力AI大模型

  随着MiMo模型的开源,小米刚刚成立不久的小米大模型Core团队也浮出水面。小米创始人雷军曾表示,自2016年组建AI团队以来,小米已逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。到2023年4月,小米成立了专职大模型团队,经过多次扩展,AI团队人员规模已达3000多人。

  小米对AI大模型的投入早有端倪。Deepseek-V3爆火后,背后的AI“天才少女”罗福莉备受关注。彼时就有报道称,雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,领导小米AI大模型团队。

  此外,小米还搭建了GPU万卡集群,并持续提升算力储备,为大模型研发提供坚实保障。2024年年报显示,小米计划2025年投入70亿元以上资金用于AI研发,约占总研发经费的1/4,重点聚焦AI基础设施、大模型开发及应用场景搭建。

  小米在AI领域全面发力,将AI视为下一个“新战场”。与其他大模型厂商不同,小米主攻轻量化、本地部署,是业界首个在手机芯片上跑通十亿参数规模大语言模型的厂商,验证了端侧小模型在部分场景下的卓越表现。

  雷军指出,“小米拥有众多设备,是全球领先的消费级物联网平台。设备多样,使用场景各异,一个大模型难以兼顾。将部分大模型能力下放至端侧,不仅能保护用户隐私,还能实现千人千面的个性化定制。”因此,小米在训练策略上致力于减少参数浪费,追求效率和效果的最佳平衡。

  同时,小米致力于将AI大模型与自身业务深度协同,围绕硬件生态拓展应用场景,让AI真正服务于产品。目前,小米的AI技术能力已逐步融入手机、汽车、AIoT、机器人等业务板块,加速端侧赋能。业内人士认为,小米此次开源的小参数规模模型为AI在手机端侧的应用提供了坚实模型基础。

  中信建投研报指出,大模型能力不断迭代增长,但模型间差异逐渐缩小。这些技术需在终端设备上落地应用,最终实现商业价值的转化。目前,Meta、字节、小米等巨头已开始大力布局端侧AI,抢占AI Agent入口。除了手机、PC、眼镜、耳机外,潜在的端侧AI设备数量巨大,家电、机器人、智能车等均受益于端侧AI趋势,将带来广泛的硬件升级。重点关注算力、存储、连接、电力等硬件环节。

(文章来源:证券时报网)