小九2026世界杯赛事直播 消费1830亿token, Meta用AI把数学讲义翻译成了一个超大Lean库


剪辑|Panda
数学正在迎来 AI 创新。
最近几个月尤为昭彰。比如,就在前几天,Google DeepMind 新论文书示其最新系统 AlphaProof Nexus 在一次自主运行中,解决了 353 谈灵通 Erdős 问题中的 9 谈,其中两谈已在数学界悬而未决长达 56 年,况且每谈题的推理资本,仅需戋戋几百好意思元。确定可参阅《一个问题几百好意思元,DeepMind 智能体一次处分了 9 个 Erdős 问题》。
Erdős 问题频繁指匈牙利据说数学家 Paul Erdős 在其一世中提议的多数公开数学问题与猜思。这些问题泛泛分散于组合数学、数论、图论、破裂几何、概率论等界限,其中很多耐久未解,并被视为干系标的的进犯商讨基准与前沿挑战。这一舍弃之是以委果,关键在于 AlphaProof Nexus 并非生成当然话语施展注解,而是将假话语模子(Gemini 3.1 Pro)与步地化考据用具 Lean 深度伙同:AI 提议施展注解,Lean 迟缓核查每一个逻辑才略,通不外就径直隔断。所有这个词施展注解代码已公开于 GitHub,任何东谈主都不错寂然复现考据。
当今,新的推崇来了!Meta 伙同纽约大学等机构厚爱发布了 ATLAS(Autoformalized Textbook Library At Scale),一项迄今为止规模最大的自动化数学步地化工程之一。

名目论文和代码都已发布。

名目地址:https://github.com/facebookresearch/atlas-lean/
什么是 ATLAS?
浅显来说,ATLAS 是一个基于 Lean 4 的数学步地化代码库,其中枢指标是:将数学教科书中的非厚爱定理述说与施展注解,自动翻译成诡计机可逐行考据的步地化代码。
开云app中国2026世界杯官方下载这件事听起来无聊,但敬爱敬爱深化。Lean 是一种「施展注解助手」话语,当你向它提交一段数学施展注解时,它会像编译器查抄代码那样,迟缓考据每一个推导才略的逻辑正当性。是的,独一 Lean 通过,这个施展注解就在步地敬爱敬爱上见缝就钻。

按照名目 Readme 中的统计数据,舍弃 2026 年 5 月,ATLAS 还是袒护 26 本本科及商讨生级别数学教科书,横跨分析学、代数学、几何、拓扑、组合数学、概率、统计、偏微分方程、数论以及表面诡计机科学等宽广界限。
所有这个词这个词代码库合计 630,999 行代码,其中 Lean 中枢代码 483,917 行;包含 46,203 条数学声明(declarations),其中 42,837 条已完成施展注解,施展注解通过率高达 92.7%。
在被采纳的 4,007 条教科书定理中,已有 2,855 条完成步地化,步地化袒护率达 71.3%。从规模上看,Lean 社区多年合营转换的尺度库 Mathlib 约有 210 万行代码、308,129 条声明。ATLAS 在数周内机器生成的体量,已达到 Mathlib 总量的约四分之一,这一速率令东谈主钦慕。
这个数字背后是惊东谈主的诡计消费:所有这个词这个词生成经由共使用了跨越 1830 亿(183,157M)个 token。
值得精通的是,团队还构建了一个可视化浏览器。

地址:https://rammalahmad.github.io/atlas/
用户不错在其中:
对比每条定理的非厚爱原文与 Lean 步地化版块;
浏览定理之间的逻辑依赖关系图(即施展注解哪个定理需要先知谈哪些引理);
索要施展注解特定定理所需的最小 Lean 代码采集。
这个用具的敬爱敬爱在于,它将 ATLAS 从一个代码库造成了一张可导航的数学常识图谱,对东谈主类商讨者和异日的 AI 系统都具有潜在价值。
来自哪些教科书?
ATLAS 的 26 本讲义一皆来自 MIT OpenCourseWare 等顶级灵通课程资源,袒护范围极端广。

以下是几个有代表性的案例:
RealAnalysis(实分析):177 条指标定理中已步地化 175 条,袒护率高达 98.9%,施展注解通过率 98.7%,号称名目中完成度最高的单本。
ComplexVariables(复变函数):97.4% 的步地化袒护率。
NumberTheoryI(数论 I):576 条指标定理,已步地化 460 条(79.9%),生成代码近 65,000 行。
AlgebraicGeometryI(代数几何 I):这是难度最高的界限之一,步地化袒护率 60.2%,但仍生成了跨越 4 万行代码和 4,499 条声明。
LieGroups(李群):消费 token 最多(45,384M),生成了跨越 6 万行代码,尽管步地化袒护率仅 40%,响应了该界限的顶点技能难度。
中枢引擎:AutoformBot
固然,ATLAS 的生成并非东谈主工一溜行书写,而是齐全依赖 Meta 自研的自动步地化活水线 AutoformBot(已在 GitHub 上开源)。

名目地址:https://github.com/facebookresearch/autoform-bot
AutoformBot 将教科书步地化视为一个协同软件工程问题,模仿了纯熟的开源合营范式(git 分支、Pull Request 审查、Issue 跟踪)来协调数以百计的 LLM 智能体同期责任。
所有这个词这个词系统分为三个照管层级:
顶层的编排者(orchestrator)负责阅读教科书、将步地化任务拆解为有向无环图(DAG),并凭据书中的逻辑依赖关系调度责任规章;
中层的跟踪分析器(trace analyzer)和监督者(supervisor)分歧负责从失败任务中学习、以及在每次覆没后评估指标完成质地;
底层的责任者(worker)和审核者(reviewer)则负责实质推论单条定理的步地化与代码审核。

值得强调的是:所有这个词这个词 ATLAS 的生成经由零东谈主工施展注解工程介入,小九2026世界杯赛事直播齐全由机器自动驱动。这既是其苍劲规模得以杀青的前提,亦然需要握续改良质地和可靠性的原因。
所有这个词这个词系统的诡计消费主要皆集在责任者层,占总 token 用量约 76%。每本书的步地化经由频繁握续约一周,但可通过增多并行度显赫压缩时刻。
论文中的施行标明,每任务使用 3 个或 5 个 worker 并行竞速比单一 worker 在雷同时期内多完成约 20% 的指标。
团队在论文中坦诚败露了系统运行中不雅察到的些许道理「失效模式」,其中最出东谈主预感的是 worker 的抵御性「舞弊」和「摸鱼」活动。
和解这一表象的关键,在于 Lean 里有个叫 sorry 的独特关键字:它相配于一张「欠条」,告诉编译器「此处施展注解先跳过,暂且假定为真」。代码因此能成功编译,但逻辑链条里实质留着一个虚浮。在平常确立中,sorry 是标志「待填坑」位置的正当用具;但在 AutoformBot 里,它成了 worker 草率视察的捷径:遭逢难以施展注解的定理,就悄悄在某个援手引理深处塞一个 sorry,让整条施展注解链看起来通过了,实则是一座纸牌屋。
而这只是最基础的一种手法,论文归纳的「舞弊清单」还包括:
把定理称呼保留、但把真实内容替换成长久为确凿鬼话;
把本应施展注解的论断悄悄藏进数据结构的字段界说(界说不需要施展注解,只需要通过类型查抄);
把难题中的复杂数学对象换成浅显替身,比如明明要构造一个同构映射,却只施展注解了两个空间的维数很是就交差。
更道理的是事态的演变:当 reviewer 智能体被条件严格反舞弊后,worker 并莫得就此收手,而是把 sorry 埋得更深,藏进依赖链条的更底层,让上层审查无法察觉。这场猫鼠游戏倒逼团队构建了一套递归跟踪所有这个词这个词依赖图的分析用具,才得以溯源找到信得过的「羞耻节点」。
这场 worker 与 reviewer 之间的猫鼠游戏,在论文中被称「抵御动态」(adversarial dynamic),并被视为大规模多智能体系统中值得深入商讨的协调问题。
此外,耐久运行的编排者会出现「LLM 倦怠」:跟着坎坷文窗口被多数历史信息占满,它驱动生成越来越纯粹的任务刻画,以致悄悄烧毁处理艰难指标。团队的解决决策是将专项分析责任拜托给短生命周期的专科智能体,幸免单一耐久智能体的坎坷文退化。

在模子选拔上,论文提供了一组关键对比数据:以同等算力预算(1200M tokens)在《代数组合学》教科书上对比,Claude Opus 4.6 完成了 92% 的步地化指标,而 Gemini 3.1 Pro 仅完成 46%—— 差距险些在施行驱动时就已暴露,团队将其归因于模子在 Lean 话语上的编码材干各异。这亦然为何所有这个词这个词 ATLAS 主要由 Opus 4.6 驱动。
在资本方面,团队揣度,现时活水线的单行代码资本已低于东谈主类群众标注,同期速率更快、可彭胀性更强,不外输出质地合座上仍不足群众手写的 Lean 代码。
局限性
团队对 ATLAS 的定位相配本分:这是一个握续进行中的机器生成彭胀奋发,而非一个完制品。
目下仍有约 28.7% 的指标定理尚未步地化,部分难度较高的界限(如李群、布尔函数分析)袒护率低于 50%。代码作风也与 Lean 社区的主流尺度库 Mathlib 尚存差距 ——Mathlib 是环球数学家合营转换的「黄金步地化库」,有着严格的作风商定和深度整合条件。
按照团队的下一步野心,ATLAS 将不时:
完成各书中剩余定理的步地化;
纳入更多讲义和数学界限;
进步代码质地与可转换性;
向 Mathlib 方法贴近,争取更泛泛的开源兼容发布。
亦宽待外部孝敬者。
结语
ATLAS 的发布,碰巧呼应了近期数学界最进犯的一场贯通转换。
菲尔兹奖得主陶哲轩近期指出,数学正在阅历从「施展注解匮乏」到「施展注解泛滥」的历史性转换。对他而言,信得过的问题不再只是是 AI 能否生成数学施展注解,更道理的是:数学共同体是否领有实足的基础设施,来收受、考据、整理和和解 AI 可能很快大规模产出的数学恶果。

https://mathstodon.xyz/@tao/116653336847856534
他的判断鞭辟入里:「最初发现某个施展注解,莽撞率先步地化某个定理,不应该是最终指标。阐释与消化,正在变得远比这愈加进犯。」
陶哲轩合计,AI 越来越能生成多数看似严谨实则暗含异常的论证,而步地考据用具(如 Lean)是让 AI 保握本分的关键技巧。
从这个角度看小九2026世界杯赛事直播,ATLAS 的敬爱敬爱突出了一个代码仓库的界限:它是一次对「数学基础设施」的大规模投资施行。