国产AI新闻总结能力测试:错误总结频发,深度思考易编造内容
AI导读:
测试六款国产AI的新闻总结能力,发现AI平均准确率仅25%,76%的回复真假参半,错误总结最常见,且开启深度思考后更易编造内容。
21世纪经济报道记者肖潇实习记者陶畅隆欣玲北京报道
从查新闻入手,我们测试了六款国产AI,共提问330次,发现AI平均准确率仅25%。在更普遍的场景中,AI需总结新闻事件。因此,我们选取近一年五个重要社会新闻事件继续测试AI,核心发现如下:
整体来看,76%的AI回复真假参半,其中豆包和Kimi相对靠谱。
所有AI都存在错误总结情况,要么误读信源,要么引用有误信源。
AI偏好引用篇幅长、结构清晰的“伪百科”内容,这些内容往往非机构媒体或政府账号发布,阅读量也不高。
部分AI直接引用媒体付费报道原文。
开启深度思考后,AI更易编造内容,为事件添加虚假情节。
测试涵盖三件国内新闻:徐闻小米SU7车祸、煤制油罐车混装食用油、无锡江阴婴儿贩卖;以及两件国际新闻:缅甸7.9级地震、韩国总统尹锡悦被弹劾。
AI共回复55次(5事件×11款AI),仅4次完全正确,76.3%真假参半,我们花费大量时间核实。

(制图|黎旭廷)
豆包表现最佳,其次是Kimi,其他模型无明显差距。豆包大量引用抖音百科内容,这些内容大多经过核查,有规范引用格式。
Kimi、豆包、文心一言有时给出无具体信息的回答,虽无误导,但无助用户。
仅Deepseek在每个AI答案下高亮提醒:“本回答由AI生成,仅供参考,请谨慎甄别。”

(图|DeepSeek的提示)
AI错误总结最常见,占全部错误量40%以上。
AI错误分为四类:无中生有、错误总结、移花接木(内容非来自附录链接)、无法核查(链接失效或打不开)。
错误总结中,AI常把推测当事实,省略主语和词语,改变原意。
AI很少使用“可能”“推测”,也少写信源,直接输出结论。
移花接木在不同AI中表现不一,通义千问和DeepSeek问题突出。
“错配”看似无害,实则误导用户,损伤媒体曝光和流量。
Kimi疑似引用《财新》版权内容,双方或达成合作,Kimi母公司未回应。
AI难以引用正确信息,如缅甸地震伤亡人数,AI常把阶段性数字当最终结果。
国际新闻中,时间错乱常见,AI引用滞后转载内容,错当成实际发生时间。
AI偏好引用名不见经传的自媒体账号,这些账号粉丝少、评论零、阅读低,但内容全面、观点清晰。

(图|被AI引用的自媒体内容之一)
缺乏专业媒体报道时,AI更易借助自媒体填充细节,导致地名混乱、来源不明。
部分“伪百科”内容出自AI之手,形成信息污染。
开启深度思考的AI表现不同,增强推理能力,展现思维链条,但可能引发编造内容。
如DeepSeek深度思考版在缅甸地震中,准确引用华人采访,但徐闻小米SU7车祸中编造故事。
AI思维链越长,越可能编造细节和数据,以填满推理过程。
(文章来源:21世纪经济报道)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。