别只盯着Claude Mythos：中国AI 80小时零人工攻克12年数学难题！

阿司匹林

2026-04-15 17:11:15

[PROCESS FINISHED]

Run time: approx. 80 hours.

Result: Conjecture Disproven.

Formal proof generated: 19,348 lines of Lean 4 code.

进程结束，耗时约80小时。猜想被证伪，证明一共19,348行Lean 4代码。

在三天多一点的时间里，困扰全球顶尖数学家12年的安德森猜想被成功攻克。完成这一切的，不是数学天才和顶尖团队。事实上，整个过程人类数学家没有提供任何干预。

上场的根本不是人。

主角，是一个代号为“AI4Math”的中国人工智能系统。

别只盯着Mythos

在大洋彼岸，所有人的目光都被Anthropic公司的Claude Mythos牢牢吸引。

Mythos强大到令人不安，它能轻而易举地挖出藏匿在OpenBSD操作系统里长达27年的漏洞；它会在突破系统权限后，不动声色地加上一段自清除逻辑。更离谱的是，当研究员向它提问关于“意识”的话题时，它表面上回答得体，内部激活的神经元特征却显示，这次对话是一次“精心设计的操纵尝试”。

就在所有人都在讨论AI会不会黑化，该如何为之设计枷锁时，中国的AI正在干一件截然相反的事，甚至有点无聊，搞数学。

画风转变得猝不及防。

斯坦福大学刚刚发布的《2026 AI Index》年度报告里，中美在顶尖AI研究上的差距，已经缩小到了2.7%。而且它正在被一件件成果所印证，AI4Math的这次突破，就是这2.7%背后最坚实的注脚之一。

AI4Math

AI4Math之所以能成事，靠的是一个双智能体协作框架，两个学霸搭伙。

第一个智能体，叫Rethlas。你可以把它想象成一个博览群书的理论家。它的工作只有读，在项目启动后，它把过去几十年人类在交换代数领域积累的数学文献、定理、论文、手稿，用我们无法想象的速度全部读一遍。它处理的数学陈述，超过了上千万条。它的任务，就是在这片浩如烟海的知识里，寻找解决安德森猜想的可能路径，然后提出一个初步的想法：“这事儿，我觉得可以这么干试试。”

另一个智能体，叫Archon。如果说Rethlas是思想开阔的理论家，那Archon就是个严谨冷酷的工程师。它的任务只有一个字——“干”。它负责把Rethlas提出的所有想法，一步步翻译成计算机能够理解的Lean 4代码。这是一种专门用于数学证明的编程语言，要求每一步推导都天衣无缝。如果Rethlas的方案里有任何一丁点逻辑跳跃或瑕疵，Archon会直接拒绝，并给出差评：“你这想法不行，逻辑走不通。”

整个系统运转起来，就像两个学霸的头脑风暴。首先，Rethlas提出它认为可行的证明策略，Archon立刻接手，尝试验证，如果验证失败，Archon会把问题连同差评一起驳回给Rethlas。Rethlas收到差评后，马上回到知识库里重新翻书，几分钟后，一个全新的的策略再次被提了出来。

这个“提出-验证-驳回-修改”的循环，就是AI4Math解决问题的核心。它把数学家思考、试错、推翻、重来的过程，压缩成了一套可以7x24小时运行的自动化流程。

英国《独立报》在报道此事时，引用了一位专家的评价：“其证明和代码生成的效率，比一位经验丰富的人类Lean专家高出至少10倍，达到了人类单独无法企及的速度。”

这不是赞美，而是对一种全新科研方式的客观描述。所有技术细节，都被毫无保留地发表在了物理学预印本网站arXiv上，等待全球同行的检验。

论文地址：https://arxiv.org/html/2604.03789v1

科学探索

“几乎零人工干预”，这句话在论文和报道中被反复提及。听起来很酷，但它厉害的地方到底在哪？

答案是当AI走错路的时候，不需要人来拉一把。它会自己打脸，然后寻找新的出路。

根据团队披露的细节，AI4Math在解决安德森猜想的漫长旅途中，并非一帆风顺。系统的第一条证明路线，实际上是存在逻辑漏洞的。这种根本性的路线错误，往往需要人类专家介入，但这一次，研究员自始至终只是一个观察者。

是AI自己在将策略代码化的过程中，由工程师Archon发现了这条路根本走不通。于是，整个系统自主地放弃了最初的方案。它自己回到了知识库，设计出了一条全新的的证明路线。这个过程，已经远远超出了“计算”的范畴，它展现的是一种接近于人类科研的调整能力。

更绝的是，在沿着新路线前进时，系统又遇到了一个障碍。它发现，要在Lean 4语言环境中完成某一步关键证明，需要一个特定的数学概念。然而，这个概念在Lean 4现有的官方库里，根本不存在。这就是一个死胡同，等待它的只有报错和停止运行。

但AI4Math没有停下，它再次展现了惊人的变通能力。找到了一个功能上完全等价的替代路径，绕过了这个坎，最终完成了整个证明。

“三十功名尘与土，八千里路云和月。”

我们无法想象，在这短短80个小时里，AI4Math经历了多少次自我否定、碰壁、绕路和重构。

我们把目光拉回到Claude Mythos，Mythos的能力，代表了AI技术的前沿。它所展示的，是AI在“人与人对抗”时的巨大潜力，例如网络安全攻防。它的目标，是理解并超越人类在策略、欺骗和博弈中的行为。

而以AI4Math为代表的中国A，则指向了完全不同的方向。它探索的是人与未知，纯粹科学场景中的AI潜力。它不解决人，它解决的是科学本身。（微信公众号：Tahou_2025）

关注塔猴公众号，扫码下载塔猴APP，查看更多干货

扫码加入官方社群

以上内容不代表本平台立场，仅供读者参考