模型自主发现算法:AlphaResearch在2/8开放问题上击败人类研究者

2025-11-19 09:56:52
文章摘要
字节跳动和多所名校做出的 AlphaResearch 系统,能在真实开放的数学问题上跑赢人类记录,还能提出人类从未见过的思路。自动生成想法、验证、再改进。

 在算法设计这种高度依赖经验、洞察与启发式思维的任务上,传统观点认为 AI 只能做优化器。

但 AlphaResearch的出现,让这一假设出现松动。

它不仅能够在特定数学任务上超越人类专家,独立发现未知知识,这意味着语言模型可以作为科研主体。

字节跳动+耶鲁大学+纽约大学+清华大学联合发布的论文表示,AlphaResearch通过构建双研究环境,首次实现了LLM在开放算法问题上的自主发现,并在部分任务中超越人类最佳记录。

论文链接:https://arxiv.org/pdf/2511.08522

项目链接:https://github.com/answers111/alpha-research


双轨环境破解LLM的创新性死循环

传统方法存在根本矛盾:执行验证系统能确保代码运行,但可能收敛于无科学意义的解;纯创意生成系统则易产出不可行的想法。

AlphaResearch的突破在于融合两种路径

  1. 执行验证环境:语言模型提出算法后立即进入代码执行、性能检测、自动调参等流程,通过代码解释器实时检验生成程序的符合性与性能
  2. 评审奖励环境:AlphaResearch-RM-7B用2.4万条ICLR评审意见训练,形成一个科研价值判断器,对生成思路进行新颖性和文献对齐度评分

AlphaResearch通过迭代生成想法 → 验证 → 优化的闭环,使LLM具备持续进化能力


圆packing算法实现“超人类”突破

在AlphaResearchComp基准的8个问题中,AlphaResearch以2/8的胜率击败人类研究者。

其最显著成就是圆packing问题(目标:在单位正方形内放置n个不重叠圆,最大化半径和)

  1. n=26时,AlphaResearch将半径和提升至2.636,超越人类记录的2.634(David Cantrell, 2011)和AlphaEvolve的2.635
  2. n=32时,进一步达到2.939,优于人类的2.936和AlphaEvolve的2.937

引入评审奖励后,AlphaResearch的优化曲线更平滑,收敛速度更快


这一结果的意义远超数值提升,它证明LLM能产出当前人类知识库中不存在的解法。

例如,其生成的圆排布策略结合了六边形密铺和动态扰动技术,突破了传统对称布局的局限。


自主发现的六大挑战

尽管取得突破,AlphaResearch在其余6个问题中未能超越人类。

分析显示三大瓶颈

  1. 奖励泛化局限:对高度抽象问题(如数论猜想),基于论文摘要训练的RM难以准确评估创新性
  2. 代码执行效率:复杂约束问题(如自相关不等式)需大量采样,LLM生成的代码常因计算资源不足而失败
  3. 初始状态依赖性强:若直接沿用人类最优解初始化,LLM难以跳出局部最优(如MSTD问题中评分无提升)

想法筛选机制虽提升效率,但也可能误杀潜在创新方案


科研范式的转变

AlphaResearch带来的并不是单一工具突破,而是一种科研范式的改变。

人类研究员负责方向判断、任务定义、约束设定,模型负责执行、试验、微创新、空间搜索,奖励模型负责科研价值判断,搜索系统负责迭代与路线优化。

未来的科研团队很可能演化成“人类 + LLM + RM + 执行集群”的混合科研结构,这比一个人 + 一个模型强得多,也比传统实验室高效得多。





声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。