智谱联合华为开源新图像生成模型GLM-Image

股市热点 2026-01-14 10:13:51 来源：上海证券报作者：网络

AI导读：

智谱联合华为发布新一代图像生成模型GLM-Image，该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程。该模型旨在推动图像生成与大语言模型的深度融合，成为首个开源的工业表现级离散自回归图像生成模型。

　　1月14日，记者获悉，智谱联合华为开源新一代图像生成模型GLM-Image，模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。

　　当天港股开盘，智谱大涨超16%。

　　作为谷歌Gemini生态下的最新图像生成模型，Nano Banana Pro此前凭借其“工作室级”的生成画质，在全球范围内爆火。

　　在业内看来，以Nano Banana Pro为代表的闭源图像生成模型，正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成，进化为兼具世界知识与推理能力的“认知型生成”。

　　智谱表示，GLM-Image正是其面向“认知型生成”技术范式的一次重要探索，这也是首个开源的工业表现级离散自回归图像生成模型。

　　技术路径上，GLM-Image采用创新架构让，以模型“读懂写对”。面对传统模型在“理解复杂指令”与“精准绘制文字”上难以兼顾的问题，GLM-Image引入了“自回归+扩散解码器”混合架构，创新地融合了9B的自回归模型与7B的DiT扩散解码器。

　　前者利用其语言模型的底座优势，专注于提升对指令的语义理解和画面的全局构图；后者配合Glyph Encoder的文本编码器，专注于还原图像的高频细节和文字笔画，以此改善模型“提笔忘字”的现象。

　　同时，通过改进Tokenizer策略，GLM-Image能够自适应处理多种分辨率，原生支持从1024x1024到2048×2048尺寸的任意比例图像的生成任务，无需重新训练。

　　基于上述架构创新，GLM-Image在文字渲染的权威榜单中达到开源SOTA水平。

　　Demo显示，在科普插画上，GLM-Image更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。

　　在生成电商图、漫画等多格图画时，GLM-Image能够保持风格和主体的一致性，并保障多处文字生成的准确率。

　　价格方面，API调用模式下，使用GLM-Image生成一张图片仅需0.1元。

　　GLM-Image不仅是技术创新的体现，也是对国产计算生态的一次深度探索与验证。其自回归结构基座从早期的数据预处理到最终的大规模预训练，全流程均在昇腾Atlas 800T A2设备上完成。

　　依托昇腾NPU和昇思MindSpore AI框架，使用动态图多级流水下发、高性能融合算子、多流并行等特性，智谱自研了模型训练套件，全面优化数据预处理、预训练、SFT和RL的端到端流程。

　　智谱表示，GLM-Image是首个在国产芯片上完成全流程训练的SOTA多模态模型，验证了在国产全栈算力底座上，训练高性能多模态生成模型的可行性。

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。