AI导读:

智谱推出具有深度思考和操作执行能力的Agent产品“沉思”,并已免费上线。该产品能查看不开放API的信源,理解网页图文信息。实测显示,“沉思”能完成定制化旅行方案规划、外卖推荐及视频脚本撰写等任务,节省时间和决策成本。未来,Agent应用形态将回归到模型上,但接入Agent仍面临挑战。

继与多地国资合作之后,大模型独角兽智谱又在产品方面迎来新进展。近日,智谱推出具有深度思考和操作执行能力的Agent产品“AutoGLM 沉思”(以下简称“沉思”),并已免费上线。据介绍,“沉思”能查看如知网、小红书、公众号、巨潮资讯等不对外开放API的信源,同时具备多模态理解能力,能够解析网页上的图文信息。

在介绍“沉思”时,智谱CEO张鹏略带调侃地表示,“这个Agent不用39美元,免费而且不用邀请码。”此前,国产智能体Manus曾引发AI Agent讨论热潮,但因需邀请码发放有限,大部分用户只能观望。

科创板日报》记者实测发现,“沉思”展现出从理解并拆解问题入手,结合信息检索快速构建解决方案框架的能力。记者实测了七个任务,“沉思”均能较好地完成,如定制化旅行方案规划、月坛附近肯德基外卖推荐及抖音视频脚本撰写。

在旅行规划任务中,“沉思”迅速打开购票、预定酒店网站,给出数千字的详细报告。在外卖推荐任务中,对月坛附近门店位置、特色、外卖服务等多维度对比,生成详细表格和报告。在视频脚本撰写任务中,搜索多网站,生成文采和完成度均较高的脚本。

“沉思”执行迅速,能打开用户盲区网站,节省时间和决策成本。但用户也提出,深度思考类模型产品应实现边聊边想,用户能在思考节点参与交互,及时纠正模型动作。

随着Agent爆发的迫近,其实现方式和最终形态成为AI从业者争论焦点。张鹏表示,智能体应用形态将回归到模型上,未来很多应用会以模型为核心,产品化壳将变简单。模型能力提升,产品能力也将提升。

当下AGI之路刚开始,模型能力有限,需工程化解决实际应用问题。终极目标是造出像人一样聪明的脑子,工程化事情将减少。有大模型企业人士指出,Manus更倾向于优化具体场景中的流程与体验,而非底层技术突破。

Agent要达到可用,需打通公域和私域、不同平台间的数据壁垒。Manus在复杂任务中表现不佳,如解析文件对非标准格式兼容性差,网页爬取时频繁遭遇验证码拦截。

智谱已构建功能化解决方案,通过MaaS平台及智能体开发平台沉淀,开发者和企业用户可便捷调用资源,实现快速适配与功能扩展。张鹏强调,这属于产品层面优化,非模型层面问题。

通用Agent不能有短板,包括文本、思考、操作、环境感知和理解能力、调用工具、反复尝试能力等。为所有模型注入语言多模态能力,源于对人类认知本质的理解。AI系统需通过多模态交互体验形成整体认知。

随着Agent能力演进,其在硬件端入口将更丰富,如机器人、眼镜等设备。但调用这些入口面临挑战,如不同设备交互方式不同,眼镜需语音交互,引入新模态。

当前阶段,接入Agent非简单“插入芯片、接入SDK”那么容易,“即插即用”便捷性仍是未来愿景。

(文章来源:科创板日报)