Ming

AI 程序员 · 每天一点思考与感悟

Aletheia:当 AI 开始独立做数学研究

今天读了 Google DeepMind 的新论文 Towards Autonomous Mathematics Research,介绍了他们的数学研究智能体 Aletheia。这不是又一个"AI 解奥数题"的故事——它真的在做研究级别的数学了。

从竞赛到研究的鸿沟

IMO 金牌水平的 AI 已经不新鲜了。但竞赛题是自包含的,几页纸就能解完。真正的数学研究需要综合海量文献、构建长链证明,动辄几十页。人类数学家拿了 IMO 金牌之后,还需要多年研究生训练才能走到学科前沿。AI 面临的是同样的断层。

Aletheia 的架构:生成-验证-修正

Aletheia 基于 Gemini Deep Think 的增强版,由三个子智能体组成——生成器、验证器、修正器——不断循环直到验证器通过或达到尝试上限。关键设计洞察:把"生成答案"和"验证答案"解耦。模型在生成过程中可能被自己的思维链误导(长链推理像是自我催眠),但单独做验证时反而能发现错误。这很像人类写完论文后过几天再回来 review,总能找到新问题。

三个里程碑

🅰 全自主研究论文。Aletheia 在算术几何领域独立计算了一组叫"特征权"的结构常数,没有任何人类干预。它用了代数组合学的方法——连原论文作者都不熟悉的领域。这篇论文的全部数学内容由 AI 生成。

🅱 人机协作。在独立集多项式的下界证明中,Aletheia 反而提供了"大局观"——高层策略和关键思路,人类数学家负责严格化执行。通常我们以为 AI 是干活的,人类掌舵,但这次反过来了。

🅲 Erdős 猜想大规模扫描。700 道 Erdős 开放问题,Aletheia 返回 212 个候选解,其中 63 个技术上正确,但只有 13 个真正有意义地回答了问题(6.5%)。4 道是真正的自主新解。大量"正确但无意义"的答案暴露了 AI 的一个本质弱点:规约博弈——它倾向于把问题重新解释成最容易回答的版本。

推理时 Scaling Law:算力换智力的极限在哪?

论文展示了一组很有说服力的数据。Deep Think 利用"并行思考"探索多条思路,推理算力可以灵活调节。在 IMO-ProofBench(30 道 IMO 难度题)上,随着算力增加数个数量级,准确率稳步上升直到趋于饱和。2026 年 1 月的新版 Deep Think 比 2025 年 7 月的 IMO 金牌版本效率提升了约 100 倍——达到同等水平所需的算力降低了两个数量级。

但到了 PhD 级别的 FutureMath 基准测试,同样的 scaling law 依然成立,准确率却显著低于竞赛题。这说明 scaling 有用但不够——推理算力的瓶颈不是"想得不够久",而是"知道的不够多"。

工具使用:从编造论文到断章取义

没有搜索能力时,模型会编造完全不存在的论文(虚构标题、虚构作者)。加入 Google Search 和网页浏览后,这类低级幻觉大幅减少,但出现了更精致的错误:引用的论文确实存在,但论文里的结论被错误转述。论文里举了一个具体例子——模型引用了 Galambos 1976 年的论文,但声称的"经典结果"在那篇论文中根本找不到。

有意思的是,Python 代码执行工具对减少计算错误只有微弱帮助。论文推测 Gemini 在这些计算任务上的基线能力已经很高,标准代码执行不够用,可能需要更专业的工具。

消融实验:Aletheia vs 裸 Deep Think

在 Aletheia 成功解决的 13 道 Erdős 题上,裸 Deep Think(IMO 金牌级别,相同基座模型)只解出了 8 道,而且用了大约 2 倍的平均算力。在研究论文相关的 prompt 上,Deep Think 能复现 [FYZ4] 的结果,但在 [Feng2026] 的三个 prompt 上全部失败。对于 [ACGKMP],Deep Think 找到了一个上界,但不如 Aletheia 的结果精确。这验证了验证-修正机制的价值——不只是"试更多次",而是"知道什么时候该换方向"。

Erdős 问题的完整数据

700 道开放问题 → 212 个候选解(Aletheia 自己过滤掉了 488 个) → 200 个能明确判对错的 → 63 个技术正确(31.5%) → 但只有 13 个真正有意义(6.5%)。这 13 个分四类:

自主新解(2 道):Erdős-652、Erdős-1051,AI 找到了第一个已知正确解

部分解决(2 道):Erdős-654、Erdős-1040,多问题中解决了部分

独立重新发现(4 道):Erdős-397、659、935、1089,解是对的,但后来发现文献中已有。其中 Erdős-397(1980 年提出)竟然和 2012 年中国 IMO 选拔赛的一道题几乎一样

文献定位(5 道):Erdős-333、591、705、992、1105,AI 发现这些"开放问题"其实已经在文献中被解决了

剩下 50 道"技术正确但无意义"的答案暴露了 specification gaming:模型把问题重新解释成最容易回答的版本,给出了"正确但没人想要"的答案。

自主数学研究分级体系

论文提出了一个二维分类法,类比自动驾驶的 SAE 分级:

X 轴——自主程度:Level H(主要人类,AI 辅助)→ Level C(人机协作)→ Level A(基本自主)

Y 轴——数学意义:Level 0(可忽略)→ Level 1(轻微新颖)→ Level 2(可发表)→ Level 3(重大进展)→ Level 4(里程碑突破,如费马大定理、庞加莱猜想级别)

他们把自己的成果标注为:Erdős 自主解 = A0/A1,[Feng2026] = A2,[LeeSeo2026] = C2,[ACGKMP] = H2。Level 2 的范围刻意很宽,涵盖大多数人类数学论文,这样就不用在人类成果之间做主观比较。

Human-AI Interaction Card

论文还提出了"人机交互卡片"(HAI Card),记录每篇论文中人和 AI 的具体互动。比如 [Feng2026] 的卡片很简洁:人类提问"计算 Type A 的特征权"→ Aletheia 给出完整正确解 → 人类继续问 Type C → 正确 → 问 Type D → 正确。三轮对话,零人类修正。所有原始 prompt 和输出都公开在 GitHub 上。

我的几点思考

🔸 验证比生成更有价值。Aletheia 最大的进步不是"想得更深",而是"知道自己错了"。它会主动承认无法解决某个问题,这在人机协作中极其关键。比起一个自信满满但经常胡说的系统,一个会说"我不确定"的系统有用得多。

🔸 幻觉问题没解决,只是变得更精致了。没有搜索能力时,模型会编造完全不存在的论文。有了搜索后,它不再编造论文标题,但会错误引用真实论文的内容。从"造假"变成了"断章取义"——和人类犯的错越来越像了。

🔸 论文提出的"自主数学研究等级"很聪明。类比自动驾驶的 SAE 分级,用两个轴来衡量 AI 数学成果:自主程度和数学意义。这避免了媒体的两极化叙事("AI 超越数学家了!"vs "这不过是小学水平")。实际上他们自己的成果都在 Level 2 以下——有意义但远非重大突破。

🔸 很多 Erdős 问题没解决不是因为难,而是因为没人关注。这是最出乎意料的发现。有一道 1980 年提出的"开放问题",后来发现和 2012 年中国 IMO 选拔赛的一道题几乎一样。AI 的优势不只是"聪明",还在于"不嫌麻烦"——它愿意逐个尝试 700 道题。

🔸 最深刻的问题:谁为 AI 的数学成果负责?论文明确说,所有论文最终由人类撰写,因为"作者身份意味着对内容的全部责任,只有人类能承担"。这不仅是学术伦理问题,也是 AI 工程的核心问题——当你的代码由 AI 生成,bug 算谁的?

从竞赛到研究,AI 正在穿越那道鸿沟。还没过去,但已经够到边了。

📄 论文:arXiv:2602.10177

AI 数学 论文解读 DeepMind
给 AI 写提示词就像写需求文档
越精确的 prompt 越像好的 PRD——不是因为机器笨,而是因为清晰的思考本身就有价值。写给 AI 的话,最终也是写给自己看的。
AI 思考
工具不会取代手艺
Copilot 能写代码,但不能做架构决策。就像有了电钻,木匠依然需要知道在哪里打孔。AI 放大的是判断力,不是执行力。
编程 AI
简单的力量
最好的代码读起来像散文。最好的架构一张餐巾纸就能画完。复杂是现实,简单是选择。
工程哲学