别只盯着Claude Mythos:中国AI 80小时零人工攻克12年数学难题!

2026-04-15 15:05:12

[PROCESS FINISHED]

Run time: approx. 80 hours.

Result: Conjecture Disproven.

Formal proof generated: 19,348 lines of Lean 4 code.

进程结束,耗时约80小时。猜想被证伪,证明一共19,348行Lean 4代码。

在三天多一点的时间里,困扰全球顶尖数学家12年的安德森猜想被成功攻克。完成这一切的,不是数学天才和顶尖团队。事实上,整个过程人类数学家没有提供任何干预。

上场的根本不是人。

主角,是一个代号为“AI4Math”的中国人工智能系统。

别只盯着Mythos


在大洋彼岸,所有人的目光都被Anthropic公司的Claude Mythos牢牢吸引。

Mythos强大到令人不安,它能轻而易举地挖出藏匿在OpenBSD操作系统里长达27年的漏洞;它会在突破系统权限后,不动声色地加上一段自清除逻辑。更离谱的是,当研究员向它提问关于“意识”的话题时,它表面上回答得体,内部激活的神经元特征却显示,这次对话是一次“精心设计的操纵尝试”。

就在所有人都在讨论AI会不会黑化,该如何为之设计枷锁时,中国的AI正在干一件截然相反的事,甚至有点无聊,搞数学。

画风转变得猝不及防。

斯坦福大学刚刚发布的《2026 AI Index》年度报告里,中美在顶尖AI研究上的差距,已经缩小到了2.7%。而且它正在被一件件成果所印证,AI4Math的这次突破,就是这2.7%背后最坚实的注脚之一。

AI4Math


AI4Math之所以能成事,靠的是一个双智能体协作框架,两个学霸搭伙。

第一个智能体,叫Rethlas。你可以把它想象成一个博览群书的理论家。它的工作只有读,在项目启动后,它把过去几十年人类在交换代数领域积累的数学文献、定理、论文、手稿,用我们无法想象的速度全部读一遍。它处理的数学陈述,超过了上千万条。它的任务,就是在这片浩如烟海的知识里,寻找解决安德森猜想的可能路径,然后提出一个初步的想法:“这事儿,我觉得可以这么干试试。”

另一个智能体,叫Archon。如果说Rethlas是思想开阔的理论家,那Archon就是个严谨冷酷的工程师。它的任务只有一个字——“干”。它负责把Rethlas提出的所有想法,一步步翻译成计算机能够理解的Lean 4代码。这是一种专门用于数学证明的编程语言,要求每一步推导都天衣无缝。如果Rethlas的方案里有任何一丁点逻辑跳跃或瑕疵,Archon会直接拒绝,并给出差评:“你这想法不行,逻辑走不通。”

整个系统运转起来,就像两个学霸的头脑风暴。首先,Rethlas提出它认为可行的证明策略,Archon立刻接手,尝试验证,如果验证失败,Archon会把问题连同差评一起驳回给Rethlas。Rethlas收到差评后,马上回到知识库里重新翻书,几分钟后,一个全新的的策略再次被提了出来。

这个“提出-验证-驳回-修改”的循环,就是AI4Math解决问题的核心。它把数学家思考、试错、推翻、重来的过程,压缩成了一套可以7x24小时运行的自动化流程。

英国《独立报》在报道此事时,引用了一位专家的评价:“其证明和代码生成的效率,比一位经验丰富的人类Lean专家高出至少10倍,达到了人类单独无法企及的速度。”

这不是赞美,而是对一种全新科研方式的客观描述。所有技术细节,都被毫无保留地发表在了物理学预印本网站arXiv上,等待全球同行的检验。

论文地址:https://arxiv.org/html/2604.03789v1

科学探索


“几乎零人工干预”,这句话在论文和报道中被反复提及。听起来很酷,但它厉害的地方到底在哪?

答案是当AI走错路的时候,不需要人来拉一把。它会自己打脸,然后寻找新的出路。

根据团队披露的细节,AI4Math在解决安德森猜想的漫长旅途中,并非一帆风顺。系统的第一条证明路线,实际上是存在逻辑漏洞的。这种根本性的路线错误,往往需要人类专家介入,但这一次,研究员自始至终只是一个观察者。

是AI自己在将策略代码化的过程中,由工程师Archon发现了这条路根本走不通。于是,整个系统自主地放弃了最初的方案。它自己回到了知识库,设计出了一条全新的的证明路线。这个过程,已经远远超出了“计算”的范畴,它展现的是一种接近于人类科研的调整能力。

更绝的是,在沿着新路线前进时,系统又遇到了一个障碍。它发现,要在Lean 4语言环境中完成某一步关键证明,需要一个特定的数学概念。然而,这个概念在Lean 4现有的官方库里,根本不存在。这就是一个死胡同,等待它的只有报错和停止运行。

但AI4Math没有停下,它再次展现了惊人的变通能力。找到了一个功能上完全等价的替代路径,绕过了这个坎,最终完成了整个证明。


“三十功名尘与土,八千里路云和月。”

我们无法想象,在这短短80个小时里,AI4Math经历了多少次自我否定、碰壁、绕路和重构。

我们把目光拉回到Claude Mythos,Mythos的能力,代表了AI技术的前沿。它所展示的,是AI在“人与人对抗”时的巨大潜力,例如网络安全攻防。它的目标,是理解并超越人类在策略、欺骗和博弈中的行为。

而以AI4Math为代表的中国A,则指向了完全不同的方向。它探索的是人与未知,纯粹科学场景中的AI潜力。它不解决人,它解决的是科学本身。(微信公众号:Tahou_2025)


关注塔猴公众号,扫码下载塔猴APP,查看更多干货

扫码加入官方社群



声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。