AI导读:

4月2日,智谱发布原生多模态Coding基座模型GLM-5V-Turbo,支持AI Agent走向实用化。该模型能融合视觉与编程能力,处理多模态信息,并在多个场景中实现性能提升。

  4月2日,智谱发布首个原生多模态Coding基座模型GLM-5V-Turbo。该模型最大突破在于深度融合视觉与编程能力,能够原生处理文本、图片、视频等多模态信息,同时擅长编程、长程规划、操作执行等复杂任务。

  多模态Coding能力是AI Agent走向实用化的关键一环。智谱介绍,GLM-5V-Turbo能够深度适配Agent工作流,能够与Claude Code、OpenClaw等Agent深度协同,让Agent具备真正的视觉能力,能看懂屏幕上的信息,从而完成“看懂环境→规划动作→执行任务”的完整闭环。目前该模型已通过智谱MaaS平台开放接入。

  由此,“龙虾”等智能体的任务边界将被大幅拓宽,例如可以浏览网页和文档,生成图文并茂的报告、PPT,还可以查询并解读K线图等复杂图表,可以说为“龙虾”装上了眼睛。

  3月10日智谱上线AutoClaw(中文名“澳龙”),支持用户一键安装的本地版OpenClaw应用。目前AutoClaw已上线“股票分析师”Skill,利用GLM-5V-Turbo的原生视觉能力,“龙虾”能直接看懂K线走势、估值区间图和券商研报图表,实现四路数据源60秒并行采集,输出图文交错的研报。

  除视觉编程与“龙虾”任务外,GLM-5V-Turbo在多模态搜索、深度研究、GUI Agent、感知Grounding等更广泛的Agentic场景中也实现了显著的性能提升,为此智谱也提供了一组官方Skills,帮助用户在更多场景中释放模型的多模态潜力。

(文章来源:中国证券报·中证金牛座)