国产AI新闻总结能力测试：错误总结频发，深度思考易编造内容

股市热点 2025-04-17 17:41:31 来源：21世纪经济报道作者：网络

AI导读：

测试六款国产AI的新闻总结能力，发现AI平均准确率仅25%，76%的回复真假参半，错误总结最常见，且开启深度思考后更易编造内容。

21世纪经济报道记者肖潇实习记者陶畅隆欣玲北京报道

从查新闻入手，我们测试了六款国产AI，共提问330次，发现AI平均准确率仅25%。在更普遍的场景中，AI需总结新闻事件。因此，我们选取近一年五个重要社会新闻事件继续测试AI，核心发现如下：

整体来看，76%的AI回复真假参半，其中豆包和Kimi相对靠谱。

所有AI都存在错误总结情况，要么误读信源，要么引用有误信源。

AI偏好引用篇幅长、结构清晰的“伪百科”内容，这些内容往往非机构媒体或政府账号发布，阅读量也不高。

部分AI直接引用媒体付费报道原文。

开启深度思考后，AI更易编造内容，为事件添加虚假情节。

测试涵盖三件国内新闻：徐闻小米SU7车祸、煤制油罐车混装食用油、无锡江阴婴儿贩卖；以及两件国际新闻：缅甸7.9级地震、韩国总统尹锡悦被弹劾。

AI共回复55次（5事件×11款AI），仅4次完全正确，76.3%真假参半，我们花费大量时间核实。

（制图｜黎旭廷）

豆包表现最佳，其次是Kimi，其他模型无明显差距。豆包大量引用抖音百科内容，这些内容大多经过核查，有规范引用格式。

Kimi、豆包、文心一言有时给出无具体信息的回答，虽无误导，但无助用户。

仅Deepseek在每个AI答案下高亮提醒：“本回答由AI生成，仅供参考，请谨慎甄别。”

（图｜DeepSeek的提示）

AI错误总结最常见，占全部错误量40%以上。

AI错误分为四类：无中生有、错误总结、移花接木（内容非来自附录链接）、无法核查（链接失效或打不开）。

错误总结中，AI常把推测当事实，省略主语和词语，改变原意。

AI很少使用“可能”“推测”，也少写信源，直接输出结论。

移花接木在不同AI中表现不一，通义千问和DeepSeek问题突出。

“错配”看似无害，实则误导用户，损伤媒体曝光和流量。

Kimi疑似引用《财新》版权内容，双方或达成合作，Kimi母公司未回应。

AI难以引用正确信息，如缅甸地震伤亡人数，AI常把阶段性数字当最终结果。

国际新闻中，时间错乱常见，AI引用滞后转载内容，错当成实际发生时间。

AI偏好引用名不见经传的自媒体账号，这些账号粉丝少、评论零、阅读低，但内容全面、观点清晰。

（图｜被AI引用的自媒体内容之一）

缺乏专业媒体报道时，AI更易借助自媒体填充细节，导致地名混乱、来源不明。

部分“伪百科”内容出自AI之手，形成信息污染。

开启深度思考的AI表现不同，增强推理能力，展现思维链条，但可能引发编造内容。

如DeepSeek深度思考版在缅甸地震中，准确引用华人采访，但徐闻小米SU7车祸中编造故事。

AI思维链越长，越可能编造细节和数据，以填满推理过程。

（文章来源：21世纪经济报道）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。