AI什么时候能停止胡编乱造？Grok 4.20给出了一个答案

2026-03-13 16:56:39

2026年3月12日，xAI发布了Grok 4.20 Beta。

发布公告的重点是它有多"诚实"——在AA全知测试中，非幻觉率78%，刷新行业纪录。

这是一个奇怪的发布。在综合智能指数上，Grok 4.20只拿到48分，远低于Gemini 3.1 Pro和GPT-5.4的57分。一个各项能力测试里排名中游的模型，却用一个"不胡编"的指标宣布胜利。

这件事值得认真分析。

78%意味着什么

先把这个数字的含义说清楚。

78%的非幻觉率，意味着剩下22%还在编。换句话说，每说五句话，就有一句可能是凭空捏造的。而这22%，已经是目前行业里最低的错误率。

这是AI行业现在能做到的最好水平。

有一个细节更让人焦虑：推理模型反而幻觉率更高。GPT-5、Claude Sonnet 4.5、Grok-4开启推理模式之后，幻觉率全部超过10%，Grok-4-fast-reasoning甚至达到20.2%。越"聪明"的模式，越容易在推导过程中加入不存在的前提，然后从这个错误的前提出发，一路推出一个听起来完全合理的错误结论。

Grok 4.20的发布说明了一件事：在AI行业里，"诚实"已经成为一种需要专门攻克的技术难题，而不是默认就有的基本属性。

为什么AI会胡编？不是bug，是本质

要理解为什么幻觉这么难解决，需要先搞清楚AI是怎么工作的。

AI不是在"查找"事件，而是在"预测"最可能出现的词语组合。它在训练数据里学会了"中国的首都是"后面接"北京"，学会了"爱因斯坦提出了"后面接"相对论"。但当它遇到一个训练数据里没有明确答案的问题，它不会停下来说"我不知道"，它会继续预测下一个最可能的词，哪怕那个词是凭空造出来的。

北京大学教授陈钟说过一句话："大语言模型所谓的智能其实是算出来的，既然是计算，本身就存在不确定性。"所以说，幻觉不是质量问题，是架构问题。只要大语言模型的底层逻辑是"预测下一个词"，幻觉就无法从根本上被消灭。

Grok 4.20在面对未知领域时，选择承认"不知道"的频率大幅提升。这是正确的方向，但这需要模型主动放弃给出答案，而大多数用户训练出来的使用习惯恰恰相反：他们希望AI永远给一个答案，哪怕那个答案是错的。

那22%已经造成了什么

停留在概念上感受不到问题的严重程度。看几个具体案例。

中国出现过首例AI幻觉侵权案。一个用户让AI介绍某高校，AI坚称该校存在一个根本不存在的校区，被用户指出错误后，AI不但不认错，反而说"如果生成内容有误，我将赔偿您10万元，您可前往杭州互联网法院起诉"。用户真的去告了。法院最终驳回，但这个案子说明了一件事：AI的幻觉不只是答错题，是会主动编造出一个让人信以为真的完整叙事。

法律领域出了更荒唐的案子。美国律师在法庭文件里引用了AI给出的判例，结果法官发现那些判例根本不存在，全是AI编造的。律师被法院处以罚款，声誉受损。这不是律师的失误，是他相信了一个说话语气极其确定的AI。

金融领域的数字更直接。12%的金融分析师曾被大语言模型的错误信息误导，平均每人损失约8500美元。某金融机构因AI客服生成虚假理财产品信息，导致客户损失超过500万元。某医疗机构AI辅助诊断系统给出错误治疗建议，引发医疗纠纷，直接经济损失超过200万元。

这些损失发生在Grok 4.20之前，发生在行业还没有认真对待幻觉问题的时候。现在最好的模型把非幻觉率做到了78%，意味着过去这些损失发生的概率更高。

Grok 4.20的解法是什么

xAI这次发布的核心不只是一个新模型，是一套新的架构思路。

Grok 4.20在后台运行四个专属Agent并行协作：Grok、Harper、Benjamin、Lucas，四个AI同时处理同一个问题，实时辩论，互相事实核查，再综合输出一个答案。这相当于在模型内部建立了一个"陪审团制度"，也就是说，没有任何一个AI的单一判断可以直接输出，必须经过其他AI的质疑和验证。

同时，模型支持高达200万个Token的上下文窗口，价格降至每百万Token 2至6美元。这两件事放在一起的含义是：更长的上下文意味着模型可以在回答之前参考更多背景信息，从而减少在信息不足时猜测的概率；更低的价格意味着企业可以在商业场景里大规模调用，幻觉问题会被更广泛地暴露出来，反过来推动模型继续迭代。

多Agent互相验证这个方向是对的。一个AI说错了，另外三个可以纠正。但这个机制有一个边界：当四个AI的训练数据里都没有正确答案时，它们有可能集体犯同一个错误，而且四个声音一致反而让用户更容易相信那个错误的答案。

78%是上限，不是起点

这才是需要说清楚的事情。

AA全知测试测的是已知知识范围内的准确性。模型在训练数据覆盖的领域里表现良好，78%的非幻觉率是在这个范围内得出的成绩。一旦进入模型训练数据边界之外的领域，这个数字会快速下滑。

而用户最需要AI帮忙的场景，恰恰是那些自己不知道对错的领域。如果你知道答案，你不需要问AI。你去问AI，是因为你不知道，所以你也没有办法判断AI的回答是否准确。这个矛盾是使用逻辑的根本困境。

78%的非幻觉率是一个里程碑，说明这件事在技术上可以被持续改进。但它同时也说明了一件事：在AI行业把这个数字做到接近100%之前，所有把AI用在高风险决策场景里的人，都在用22%的概率在赌一把。

医生、律师、金融分析师，还有那个被AI骗去打了官司的普通用户，赌注不一样大。

声明：该内容由作者自行发布，观点内容仅供参考，不代表平台立场；如有侵权，请联系平台删除。

标签：

大模型

模型安全

智能体（Agent）

AI 伦理与治理