比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

文章编号：54753 程序源码 2026-03-03 谷歌挑战 openai 数学 imo 斯坦福成绩单 ai

扫码关注官方订阅号

比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

FirstProof 是由来自哈佛、斯坦福等名校的 11 位顶尖数学家联手打造的一套专门验证 AI 独立科研能力的数学题集。

10 道题全网无迹可循，没法儿背答案作弊，连陶哲轩都转发说这事儿非常有意思，推荐关注。

比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

不止谷歌，OpenAI 内部模型也考了这套题，基本正确的有 5 题。

但是！谷歌全程 AI 自主，OpenAI 在考试过程中动用了人工来挑最佳答案（doge）。

FirstProof 由来自哈佛、斯坦福等名校的 11 位顶尖数学家出题。

和 IMO 这类竞赛题不同，最新挑战赛的 10 道题不是标准化的竞赛题，而是直接扒自数学家们真实遇到的难题，之前从没任何公开发布过。

而且，答案都是在 AI 考完之后才放出来的，这样就切断了 AI 通过背答案套模板的可能。

先看成绩单，OpenAI 冲刺七天，在 5 个问题上基本正确，分别是：

4. 有限加性卷积与 Φ 的调和平均不等式；

5. O- 适配切片滤过与切片连通性的几何不动点判据；

6. 大规模 ε - 轻顶点子集；

9. 缩放四线性行列式张量之间的代数关系；

10. 含缺失数据的核化 CP – ALS 子问题：基于 Kronecker 预条件的无矩阵 PCG 方法。

其实，初期 OpenAI 公布的成绩单有 6 题，结果第 2 题（非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定）反复被社区指出有逻辑问题，于是团队保守改成 5 道。

比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

不过，团队透露在在测试过程中人工协调了该模型与 chatGPT 之间的交流，用于验证、格式整理与风格调整。

有个别问题最终呈现的是人工挑选的最佳结果。

谷歌 Aletheia 这边，6 道题全都自主拿下，包括 OpenAI 被质疑的第 2 题。

在专家评审中，在 2、5、7、9、10 题获专家全票通过。

其中，第 7 题是公认的本套题集中难度最高的一题，是一个公开未解决的问题，直至本次 FirstProof 挑战赛发布标准答案时，才由 Cappell – Weinberger – Yan 团队完成首次解决。

第 8 题虽然没全票通过，但也拿到了 5/7 的高分。

对应的题目分别是：

2. 非阿基米德局部域上 GL 的 Rankin – Selberg 积分非零性判定；

5. O- 适配切片滤过与切片连通性的几何不动点判据；

7. 含 2- 挠率的实半单群一致格的紧流形基本群可实现性；

Sora是OpenAI发布的一种文生视频AI大模型，可以根据文本指令创建现实和富有想象力的场景。

8. 多面体拉格朗日曲面的 4- 顶点 Lagrangian 光滑化存在性；

9. 缩放四线性行列式张量之间的代数关系；

10. 含缺失数据的核化 CP – ALS 子问题：基于 Kronecker 预条件的无矩阵 PCG 方法。

要从解题数量和模式来看的话，谷歌 Aletheia 不仅解题数多 1 个，相比之下还靠 AI 全程自主略胜一筹。

比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

接下来，咱继续看看 Aletheia 到底是个什么打法。

首先，底层模型就是之前拿了 IMO 金牌的 Gemini 3 Deep Think。

Aletheia 搭载了 AB 两个版本的 Gemini 3 Deep Think 模型，来了个最优二选一。（A 是 2026 年 2 月的最新版，B 是 2026 年 1 月的版本。）

然后是从读题到交卷的真 · 0 人工干预解题流程。

Aletheia 能直接读取不经过人类格式化的原始问题，自主推理后输出答案。

再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式，最终直接吐出 LaTeX 形式答案。

而且，剩下的没解出来的 4 道题倒也不是错了，而是直接 " 拒答 "。

这是由于由于含智能筛选机制，当 Aletheia 无法生成可靠的证明时，模型不会胡编乱造生成无效答案，而是直接输出 " 无解决方案 " 的回复。

比IMO还难的数学挑战赛，谷歌赢了OpenAI-硬件测评

Aletheia 还能动态调整推理资源的分配，比如遇到超难的第 7 题，它能自动投入远超常规题的推理算力，通过 Generator 子 agent 多轮生成 +Verifier 子 agent 严格校验，最终攻克。

而简单题则合理控制算力，避免资源浪费。

比如面对第 10 题这种张量分解的数值型题时，Aletheia 给出了矩阵 - 向量成绩高效计算的方法。

不直接生成超大维度的 Khatri-Rao 乘积矩阵 Z，而是通过动态生成所需行的方式，将每轮迭代的复杂度压缩到 O ( qr+n r ) ，比传统线性 solver 的 O ( n r ) 快几个量级。

一键三连「点赞」「转发」「小心心」

科技前沿进展每日见

谷歌 Pixel Watch 4 功能前瞻：续航能力翻倍，并集成体温感应

谷歌 Pixel 9 Pro 长焦镜头细节：支持可变焦段，算法再升级

谷歌 Tensor G5 芯片将由台积电代工：全面转向自研架构，告别三星？

苹果 Vision Pro Lite 版本传闻再起：更轻的重量与更亲民的价格

谷歌Pixel 9 Pro上手体验：原生安卓AI大脑与计算摄影的新高度

谷歌浏览器Google ChROMe是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

Karate 测试日志无法在 Cucumber HTML 报告中显示的解决方案

如何在 HTML 文档中任意位置精准插入 PyScript 动态输出内容

JAva 8 中使用 IntStream 实现双列表动态索引映射

Symfony 中 Doctrine 事件监听器服务共享失效的正确配置方案

Yii2 Gii 无法访问的常见原因与解决方案

实现输入框值实时相加并自动更新总和，无需点击按钮即可动态计算两数之和

实现鼠标移动触发的平滑延迟元素位移动画

如何在 HTML 文档中任意位置嵌入并精准控制 PyScript 输出位置

如何用单个事件监听器统一处理多个同类型 HTML 容器的交互

幻方量化公司旗下的开源大模型平台

字节跳动自主研发的一系列大型语言模型

阿里巴巴推出的全能AI助手

腾讯混元平台推出的AI助手

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

一站式AI创作平台，免费AI图片和视频生成。

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

智谱清言 - 免费全能的AI助手

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

http与HTTPS的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

微信扫码关注PHP中文网服务号

QQ扫码加入技术交流群

本文地址： https://www.gpxz.com/article/07f809a738edbf483e80.html

上一篇：学穿搭配衣服软件哪个好热门穿搭软件下载推

下一篇：有趣的换装游戏盘点2024好玩的hellokitty换

华风商务站

华风商务站通过为会员提供免费店铺、展示供应产品信息、传递精选电商经验等服务，帮助全国中小企业开展b2b电子商务。是一个有特色的b2b电子商务平台。

商业服务 2026-01-24 22:29:56

新黎明

浙江新黎明照明股份有限公司全国销售热线：13588976369。浙江新黎明照明专业从事防爆灯具、防爆电器、防爆管件、防爆仪表、防爆风机等5大类100余个系列1000余种产品的研发、生产和销售，主要产品有：新黎明LED防爆灯、新黎明防爆控制箱、防爆接线箱、防爆照明（动力）配电箱等系列产品，广泛适用于石油、化工、煤炭、电力、医药、航空、军工等关系国家安全和国民经济命脉的领域。

安全杀毒 2026-01-25 00:25:30

郑州农业规划设计院

河南赛雅园林景观设计有限公司专业从事河南农业规划设计院,郑州农业规划设计院,河南现代农业规划设计,郑州现代农业规划设计,河南休闲农业规划设计,河南田园综合体规划设计,郑州田园综合体规划设计，是一家策划规划运营为一体的综合服务商，公司始终本着高标准设计水准和与时俱进的设计方法，追求策划规划设计的精髓。公司成立以来，始终本着“诚信为本、共同繁荣”的服务经营理念，多年来以为众多客户提供了优质的设计服务，得到客户一致好评。

设计美化 2026-01-25 16:33:31

成都韵通电子

电影视频 2026-01-25 21:15:44

江阴市柯锐特换热科技有限公司

科技创新 2026-01-25 21:29:08

北京儿童专家在线咨询

北京天使儿童医院为您提供免费在线咨询专家,儿科在线问诊医生咨询服务.通过网上交流的方式进行疾病咨询,根据您的病情给到专业,及时的治疗预防建议!

商业服务 2026-01-28 16:05:15

湖北利普达管业科技有限公司

湖北利普达，利普达管业,湖北利普达管业，镀锌防腐管，碳钢管，薄壁碳钢管，卡压连接，燃气专用管，不锈钢管，燃气不锈钢管，PE管，燃气PE管，卡压阀门，专用阀门，钢塑转换

科技创新 2026-01-28 21:40:48

首页

一个技术出身的站长，没有什么逆天的好创意，只是希望能按照自己的想法完成一个网站，将自己喜欢的内容放到网站中，能帮助到一些人。没有什么远大的目标，认真做事，看看最终能有多少的访问量，算是对自己的一次考试。

图片摄影 2026-01-29 13:17:20

社群营销代运营服务商

慧社交网是一站式社群营销代运营,SNS营销,社交营销服务商,专业的技术支持和运营服务;从引流,增量,裂变,筛选,识别,管理一个系统全搞定,助力构建私域流量,助力客户成功.

社交直播 2026-01-29 13:35:52

熊童子

熊童子周易算命易经知识网。提供在线算命服务，算命大全汇集了周易算命、姓名算命、生辰八字算命、周易起名等传统命理,以及塔罗占卜，星座算命、等等玄学知识！

星座灵异 2026-01-29 18:17:39

红外热像仪

景众盛（北京）国际贸易有限公司成立于2009年。是国内一家致力于医疗器械销售、贸易、服务于一体的综合型公司。电　话：010-84534758传　真：010-84534759

商业服务 2025-02-09 21:47:37

七彩影互联网科技

互联资讯 2026-01-25 20:18:54

好玩的开车模拟驾驶游戏有哪些开车模拟驾驶游戏排行榜前十名推荐2021 (好玩的开车模拟)

大家好，有很多小伙伴都喜欢玩模拟开车游戏，今天小编就给大家带来了开车模拟驾驶游戏排行榜前十名推荐2021好玩的开车模拟驾驶游戏有哪些，小编为大家整理了以下十款驾驶游戏，下面跟小编一起来看看吧，1、，真实赛车3，一款评价反应很高的赛车模拟驾驶手机游戏，游戏里的赛车种类繁杂，应有尽有，高达250多辆赛车，细节处理十分到位，真实还原度很高，...。

2025-02-11 16:47:55

晨阳水漆千人整装同唱国歌庆祝公司成立17周年 (晨阳水漆全称)

起来，不愿做奴隶的人们，把我们的血肉筑成我们新的长城……，5月6日上午，从坐落于河北徐水的晨阳水漆总部传出阵阵洪流般雄壮有力的歌声——这里正在举行晨阳水漆17周年庆祝活动，此次千人唱国歌，旨在纪念晨阳水漆17周岁生日，并千人整装唱国歌主题激发员工对公司的热爱，感受祖国的强大，表达对企业和祖国母亲的深情，晨阳水漆全体员工唱国歌据悉，...。

2025-01-15 23:40:22

迟到的周鸿祎 (周鸿祎吃饭)

奇酷手机的发布会结束，老周在采访间的沙发上休息，他的眼前是几十家来自全国各地的科技、财经还有大众媒体，奇酷手机的新闻性和这天发布的产品本身都在挑动采访间里的情绪，过了一会儿，老周拿着话筒问大家，语速比平时要慢些，今天讲了多长时间，人群里回答，，3个小时，，也有人答，2、3个小时，老周说，，哦，画外的意思像是——讲了这么长时间，...。

2024-11-30 17:59:17

三星P7激光电视怎么样全方面了解三星P7激光电视配置 (三星p7激光电视效果如何)

发表在三星投影仪2024，2，2810，28三星P7激光电视是一款超短焦设备，采用激光光源，拥有出色画质和性能，具体三星P7激光电视怎么样呢，下面就来详细了解一下，看看三星P7激光电视参数配置究竟如何，是否可用于构建家庭影院，三星P7激光电视怎么样，1.光学参数在亮度方面，三星P7激光电视的实际亮度达到2200ANSI流明，提供高亮画...。

2024-11-29 00:29:04

田田小象童装好加盟吗需要经验吗 (田田小象童装价格贵吗)

现在的家长都希望自己的孩子漂漂亮亮的，会经常购买各种风格的童装，市场需求的增大，各种童装品牌涌现市场，在满足家长们购物的同时，也为一些创业者带去商机，田田小象童装经过多年发展，是一家市场名气很大的童装品牌，多种类型童装，实惠消费价格，赢得了消费者的青睐，同时也博得一些创业者的关注，那么田田小象童装好加盟吗，需要经验吗，田田小象童装好加...。

2024-11-27 14:00:31

NBA名宿穆托姆博因脑癌逝世长年58岁 (nba名宿穆托姆博)

R.I.P官网，NBA名宿穆托姆博因脑癌逝世，长年58岁穆托姆博1991年首轮第四顺位被掘金选中，先后效能过掘金、老鹰、76人、篮网、尼克斯和火箭，2009年他因膝伤退役，职业生涯他四次取得最佳防卫球员，8次中选全明星，是NBA历史盖帽第二，3297次，仅次于奥拉朱旺，，2015年中选NBA名人堂，关系报道大爱无疆！篮球大使穆托姆博的...。

2024-11-13 12:26:04

国务院食安办通报对媒体反映的考查处置状况罐车运输食用植物油乱象疑问 (食安办全称)

针对媒体反映的，罐车运输食用植物油乱象疑问，，国务院食安办、国度开展革新委、公安部、交通运输部、国度卫生肥壮委、市场监管总局、国度食粮和储藏局组成联结考查组，分赴河北、天津、内蒙古、陕西四地展开联结考查，清查涉事产品流向，核对涉事责任人员及责任单位的违法行为，剖析疑问要素，理清各方责任，同时，在全国范畴内组织展开全链条清算排查，从各地...。

2024-11-13 05:43:06

怎样暗藏手机软件 (怎样暗藏手机号码)

经常使用手机时，因为一些，隐衷，要素，有时刻用户须要将自己的软件暗藏起来，那么怎样暗藏手机软件呢，上方我就教盆友们处置方法，工具IOS16.5.1，C，方法一，1.点击，设置，2.点击，屏幕经常使用期间，3.点击，内容与隐衷限度，4.点击，准许的App，5.将想要暗藏的App敞开点亮即可，左边的按钮向左移动，方法二，1.长按...。

2024-07-08 23:58:27

新迈腾买1.4T的够用吗 (新迈腾买回来一个月跑5000公里)

新迈腾1.4T与1.8T能源对比关于新迈腾的生产者，假设你重要将车辆作为日常通勤工具，对能源需要不高，那么1.4T车型已足够，但是，假设你频繁地启动高速驾驶，剧烈介绍1.8T版本，因其能源更为充沛，能满足你的性能需求，1.8T车型搭载的2.0T发起机在城市行驶体现出色，高速行驶也能坚持稳固速度，且具备优秀的燃油经济性，百公里油耗仅为6...。

2024-07-06 16:57:07

怎样下载360安捍卫士电脑上 (怎样下载360极速浏览器在电脑上)

您好，您间接网络360卫士，点击下载按钮就能下载了，之后装置一下，就成了，方法首先，在电脑中关上阅读器，搜查，360安捍卫士，进入360网站主页之后，在顶部列表项菜单中的，电脑软件，分类，在，电脑安保，下拉列表中有，360安捍卫士，点击图示处最新版本启动，立刻下载，阅读装置门路之后，点击，赞同并装置，即可完成将360安捍卫士装置...。

2024-07-01 00:05:15

桌面,桌面专题内容文章-理联盟

桌面专题,提供桌面的相关文章和相关资讯,在本栏目你可以看到桌面这个内容的相关各类文章很多篇,如有不足请提供给我们更多桌面的文章供大家查阅.

2023-10-25 17:32:37

编程开发软件资讯教程_编程入门教程

欢迎来到pc6,我们有提供编辑入门教程、编辑开发资讯和使用教程，编程语言学习办公搞定，还有精选编辑开发技巧。

2023-08-11 16:19:12

文章推荐

疫情下的数字化春运 (疫情下的数字化转型)

在中国，春运就像人们心中的集结号一样，在春节来临之际，对于远在异乡的人，不管身在何方，回家的声音总是不停的呼唤，每当春节将近的日子里，全国的公路、民航、高铁等都会出现大规模回乡的人们，这是很多人最开心和期盼已久的日子，但这也是对交通运输行业每年一次的大考，而对于高速公路的考验更是难上加难，每年春运期间高速公路拥堵一直以来被人们所诟病，...。

2024-12-03 17:07:45

资讯动态

外贸加盟 (外贸加盟连锁店)

对外贸易亦称，国外贸易，或，进出口贸易，，简称，外贸，，是指一个，地区，与另一个，地区，之间的商品、劳务和技术的交换活动，这种贸易由进口和出口两个部分组成，对运进商品或劳务的，地区，来说，就是进口；对运出商品或劳务的，地区，来说，就是出口，这在奴隶社会和封建社会就开始产生和发展，到资本主义社会，发展更加迅速，经过对外贸易，参与国际分工...。

2024-11-27 17:36:44

创业加盟

2000元的鞋子多处溢胶瑕疵多处质检疏忽后跟踩痕重大 (2000元的大写金额怎么写)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 05:51:35

单机游戏

揽运和揽胜有什么区别 (揽运和揽胜有区别吗)

路虎这个品牌的汽车，置信大家都知道了，而且懂得路虎的人都知道，路虎这个品牌的车型十分之多，而且也十分的复杂，其中路虎揽胜行政和路虎揽胜静止就是路虎家族的两大巨头，那么揽运和揽胜有什么区别呢，1、外观，两者外观上区别很大，肉眼即可分辨，这两款车型在2018年实现了中期改款，变得愈加粗劣更有吸引力，上方咱们就来体验一下，这两款车如今都有怎...。

2024-07-10 23:22:21

应用软件

哪些星座的联合是十分完美的搭配呢十二星座中 (哪些星座相配)

我以为在12个星座当中联合十分完美的重要就是以下几个搭配，第1个搭配就是双鱼座和狮子座这两个星座，一个是十分有主意的，一个是没有什么主意的，他们搭配在一同生存会比拟稳固，第2个搭配就是摩羯座以及白羊座，摩羯座的脾气理论是比拟大的，而白羊座又特意青睐那些看起来很man的男生，一个愿打，一个愿挨，第3个搭配就是水瓶座以及射手座，这两个星座...。

2024-07-10 02:28:10

网络工具