智谱发布原生多模态Coding基座模型GLM-5V-Turbo
AI导读:
4月2日,智谱发布原生多模态Coding基座模型GLM-5V-Turbo,支持AI Agent走向实用化。该模型能融合视觉与编程能力,处理多模态信息,并在多个场景中实现性能提升。
4月2日,智谱发布首个原生多模态Coding基座模型GLM-5V-Turbo。该模型最大突破在于深度融合视觉与编程能力,能够原生处理文本、图片、视频等多模态信息,同时擅长编程、长程规划、操作执行等复杂任务。
多模态Coding能力是AI Agent走向实用化的关键一环。智谱介绍,GLM-5V-Turbo能够深度适配Agent工作流,能够与Claude Code、OpenClaw等Agent深度协同,让Agent具备真正的视觉能力,能看懂屏幕上的信息,从而完成“看懂环境→规划动作→执行任务”的完整闭环。目前该模型已通过智谱MaaS平台开放接入。
由此,“龙虾”等智能体的任务边界将被大幅拓宽,例如可以浏览网页和文档,生成图文并茂的报告、PPT,还可以查询并解读K线图等复杂图表,可以说为“龙虾”装上了眼睛。
3月10日智谱上线AutoClaw(中文名“澳龙”),支持用户一键安装的本地版OpenClaw应用。目前AutoClaw已上线“股票分析师”Skill,利用GLM-5V-Turbo的原生视觉能力,“龙虾”能直接看懂K线走势、估值区间图和券商研报图表,实现四路数据源60秒并行采集,输出图文交错的研报。
除视觉编程与“龙虾”任务外,GLM-5V-Turbo在多模态搜索、深度研究、GUI Agent、感知Grounding等更广泛的Agentic场景中也实现了显著的性能提升,为此智谱也提供了一组官方Skills,帮助用户在更多场景中释放模型的多模态潜力。
(文章来源:中国证券报·中证金牛座)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

