比IMO还难的数学挑战赛,谷歌赢了OpenAI-硬件测评
扫码关注官方订阅号

FirstProof 是由来自哈佛、斯坦福等名校的 11 位顶尖数学家联手打造的一套专门验证 AI 独立科研能力的数学题集。
10 道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。

不止谷歌,OpenAI 内部模型也考了这套题,基本正确的有 5 题。
但是!谷歌全程 AI 自主,OpenAI 在考试过程中动用了人工来挑最佳答案(doge)。
FirstProof 由来自哈佛、斯坦福等名校的 11 位顶尖数学家出题。
和 IMO 这类竞赛题不同,最新挑战赛的 10 道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。
而且,答案都是在 AI 考完之后才放出来的,这样就切断了 AI 通过背答案套模板的可能。
先看成绩单,OpenAI 冲刺七天,在 5 个问题上基本正确,分别是:
4. 有限加性卷积与 Φ 的调和平均不等式;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
6. 大规模 ε - 轻顶点子集;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。
其实,初期 OpenAI 公布的成绩单有 6 题,结果第 2 题(非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成 5 道。

不过,团队透露在在测试过程中人工协调了该模型与 chatGPT 之间的交流,用于验证、格式整理与风格调整。
有个别问题最终呈现的是人工挑选的最佳结果。
谷歌 Aletheia 这边,6 道题全都自主拿下,包括 OpenAI 被质疑的第 2 题。
在专家评审中,在 2、5、7、9、10 题获专家全票通过。
其中,第 7 题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次 FirstProof 挑战赛发布标准答案时,才由 Cappell – Weinberger – Yan 团队完成首次解决。
第 8 题虽然没全票通过,但也拿到了 5/7 的高分。
对应的题目分别是:
2. 非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
7. 含 2- 挠率的实半单群一致格的紧流形基本群可实现性;
Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。
8. 多面体拉格朗日曲面的 4- 顶点 Lagrangian 光滑化存在性;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。
要从解题数量和模式来看的话,谷歌 Aletheia 不仅解题数多 1 个,相比之下还靠 AI 全程自主略胜一筹。

接下来,咱继续看看 Aletheia 到底是个什么打法。
首先,底层模型就是之前拿了 IMO 金牌的 Gemini 3 Deep Think。
Aletheia 搭载了 AB 两个版本的 Gemini 3 Deep Think 模型,来了个最优二选一。(A 是 2026 年 2 月的最新版,B 是 2026 年 1 月的版本。)
然后是从读题到交卷的真 · 0 人工干预解题流程。
Aletheia 能直接读取不经过人类格式化的原始问题,自主推理后输出答案。
再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出 LaTeX 形式答案。
而且,剩下的没解出来的 4 道题倒也不是错了,而是直接 " 拒答 "。
这是由于由于含智能筛选机制,当 Aletheia 无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出 " 无解决方案 " 的回复。

Aletheia 还能动态调整推理资源的分配,比如遇到超难的第 7 题,它能自动投入远超常规题的推理算力,通过 Generator 子 agent 多轮生成 +Verifier 子 agent 严格校验,最终攻克。
而简单题则合理控制算力,避免资源浪费。
比如面对第 10 题这种张量分解的数值型题时,Aletheia 给出了矩阵 - 向量成绩高效计算的方法。
不直接生成超大维度的 Khatri-Rao 乘积矩阵 Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到 O ( qr+n r ) ,比传统线性 solver 的 O ( n r ) 快几个量级。
一键三连「点赞」「转发」「小心心」
科技前沿进展每日见
谷歌 Pixel Watch 4 功能前瞻:续航能力翻倍,并集成体温感应
谷歌 Pixel 9 Pro 长焦镜头细节:支持可变焦段,算法再升级
谷歌 Tensor G5 芯片将由台积电代工:全面转向自研架构,告别三星?
苹果 Vision Pro Lite 版本传闻再起:更轻的重量与更亲民的价格
谷歌Pixel 9 Pro上手体验:原生安卓AI大脑与计算摄影的新高度
谷歌浏览器Google ChROMe是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!
Karate 测试日志无法在 Cucumber HTML 报告中显示的解决方案
如何在 HTML 文档中任意位置精准插入 PyScript 动态输出内容
JAva 8 中使用 IntStream 实现双列表动态索引映射
Symfony 中 Doctrine 事件监听器服务共享失效的正确配置方案
Yii2 Gii 无法访问的常见原因与解决方案
实现输入框值实时相加并自动更新总和,无需点击按钮即可动态计算两数之和
实现鼠标移动触发的平滑延迟元素位移动画
如何在 HTML 文档中任意位置嵌入并精准控制 PyScript 输出位置
如何用单个事件监听器统一处理多个同类型 HTML 容器的交互
幻方量化公司旗下的开源大模型平台
字节跳动自主研发的一系列大型语言模型
阿里巴巴推出的全能AI助手
腾讯混元平台推出的AI助手
文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。
基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿
一站式AI创作平台,免费AI图片和视频生成。
最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
智谱清言 - 免费全能的AI助手
本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。
ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。
ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。
手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。
chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。
http与HTTPS的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。
Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。
Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。
Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
本文地址: https://www.gpxz.com/article/07f809a738edbf483e80.html
































