Codex 神经网络推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号：43953 资讯动态 2024-12-09 Codex 神经网络高等数学

近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题，而且还是麻省理工数学课程难度的数学题！

在这项新研究中，研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题，并通过小样本学习自动解决数据集中 81%的数学课程问题，并且 Codex 在这些任务的表现上达到了人类水平。

这项研究的出现，颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出，Codex 之所以能做到实现这样的能力，正是因为团队进行了一大创新，过去那些不成功的研究只使用了基于文本的预训练，而此次现身的 Codex 神经网络不仅要基于文本进行预训练，并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程，从七门课程中随机抽取 25 个问题：MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时，研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH，用 MATH 来检测OpenAI Codex 的能力，MATH 从6大数学板块：初级代数，代数，计数和概率，中级代数，数论，和初级微积分中各抽取15个问题。

图注：研究中使用的课程问题数据集和MATH基准测试

研究显示，Codex 解决了问题数据集和 MATH 数据集中的 265 个问题，其中有 213 个是自动解决的。

创新何所在

在 Transformer 发布后，基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务，包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练，所以这些模型基本上不能解决数学问题，GPT-3就是一个典型例子。

后来，通过小样本学习（few-shot learning）和思维链 (Chain-of-thought， CoT) 提示，GPT-3 的数学推理能力得到了提高；然而，在没有代码的情况下，即便有小样本学习和 CoT 提示， GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究，可能在相对简单的数学水平上有一定成绩。举个例子，基于协同训练输出来验证或预测表达式树的技术，比如MAWPS 和 Math23k，能够以超过 81% 的准确率解决小学级别的数学问题，但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树，能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案，并且产生了过拟合，不能推广到其他课程。

就是，不仅对Codex 这种Transformer 模型进行了文本上的预训练，还在代码上进行了微调，使得其可以生成大规模解决数学问题的程序。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中，仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下，使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络（OpenAI Codex code-davinci-002）合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习，便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题，最后通过手动提示解决。

小样本学习方式的补充，则是这项研究的。从上图中可以看出，当零样本学习无法解答问题时，便会使用（问题，代码）对（pair）执行小样本学习：

1）使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题；

2）使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题；

3）将最相似的问题及其相应的代码作为小样本问题的示例。

图注：4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出，橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现，基本上在每个数学领域上的表现都强于其他3种方式。

，便是提供了一条解决数学问题和解释为何如此解答的管道，下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例，给定一个问题和自动生成的前缀“使用 SymPy”，Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后，程序会自动提示再次输入 Codex，从而生成生成的代码解释。

问题解决之后

除了解决数学问题和解释答案，Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平，团队在参加过这些课程或者同水平课程的MIT学生中做了调查，主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中，每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题，参与调查的学生都需要回答 3 个调查问题：

1）你认为这个问题是人工编写的还是机器生成的？

2）你认为这个问题适合还是不适合特定课程？

3 ) 在 1（最简单）和 5（最难）之间，你认为这个问题的难度级别是多少？

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

在收回的问卷中，学生调查结果总结如下：

机器生成的问题已经能让学生无法辨别，说明Codex 在生成新内容方面已达到了人类的表现水平。

但是，该模型也有无法解决的问题，比如，如果问题以图像或其他非文本形式出现，它就无法回答；带有需要证明的解决方案的问题，或者计算上难以解决的问题，比如分解非常大的素数，该模型也无法解决。不过，最后一种问题也不应出现在任何数学课程作业中，因为就算是真人学生也没法回答。

更多内容，点击下方关注：

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

版权文章，未经授权禁止转载。详情见转载须知。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

本文地址： https://www.gpxz.com/article/f1fe3d3cfd53131e9c24.html

上一篇：3D视觉成为CV新风口旷视做了这些来抢占赛道

下一篇：失忆症登上PNAS科学家提出基于相似性加权交

【正穗】汕尾公司注册

汕尾正穗财税网（电话:400-600-5982）从事汕尾地区中汕尾代理记账,公司注册,提供地址注册,商标专利注册申请等15年行业服务经验,我们认为认真实干,追求完美才能赢得企业家的信任与支持.正穗为您服务,专业至诚,无微不至,值得信赖,请相信您的选择！

商业服务 2026-01-25 14:41:21

aa上海工程拆除

上海盛醴建筑拆除工程有限公司专业提供上海各类工程拆除、垃圾清运服务，拆除工程包括酒店拆除、宾馆拆除、商场拆除、厂房拆除、钢结构拆除、桥梁拆除、大型设备拆除、烟囱拆除、上海垃圾清运等服务，本公司从事拆除行业多年，具有丰富的拆除经验,擅长整体承包拆除工程,有专业人员拆除室内一切有专业人员拆除室内一切结构，还原毛坯房。机械拆除楼房及大型厂房，负责垃圾拖运并清理现场。

商业服务 2026-01-25 16:04:41

不锈钢自吸离心泵,直联式不锈钢自吸泵

中球泵业(www.pumpzq.com)是专业不锈钢自吸离心泵,直联式不锈钢自吸泵供应商,公司不仅具有精湛的技术水平，更有良好的售后服务和优质的解决方案,欢迎来电洽谈

商业服务 2026-01-26 00:15:56

除湿机

浙江宁波辰宁新风系统主要生产除湿机，工业除湿机，除湿设备，冷风机，冷气机，水冷风机等新风除湿设备，公司拥有二千多平方米仓库。

电影视频 2026-01-28 15:50:14

扬中市鸿运制盖厂

扬中市鸿运制盖厂，主要产品有：药品包装用涂层铝带、铝板，各类药用铝塑组合盖（输液、冻干粉针、生物制品、血制品、口服液、各种塑料输液容器用聚丙烯组合盖）。

电影视频 2026-01-28 16:49:57

欣文阅读

欣文阅读是欣文网打造的垂直阅读类内容平台，旨在为读者们提供优质内容！

小说阅读 2026-01-28 18:33:34

千锋教育IT培训班

【千锋教育-IT培训机构良心品牌】提供java培训,web前端,物联网,linux云计算,UI,全媒体等IT培训课程,涵盖开发,设计,运营三大IT培训方向,严选师资,面授品质,用心服务每一个学员,赢得市场好口碑.

编程开发 2026-01-28 22:05:25

虫草养生酒,蛹虫草酒,保健酒,养生酒,鹿血酒,虫草酒

宿迁市洋河镇神功保健酒业有限公司

网络应用 2026-01-28 23:16:37

260吨吊车

聚焦建筑行业资讯,覆盖建筑多个领域,为建筑行业人士带来专业的建筑资讯服务。

新闻资讯 2026-01-29 11:56:58

阅报栏灯箱

龙喜宣传栏精神堡垒价值观标牌标识科技有限公司拥有厂房面积5000多平米是专业的阅报栏灯箱生产厂家，外形美观，价格公道，并支持来图订制，欢迎广大客户来电咨询。

管理咨询 2026-01-29 15:22:02

菲尔纳传说

菲尔纳传说游戏专题;提供菲尔纳传说中文版下载,菲尔纳传说攻略大全,菲尔纳传说汉化补丁,菲尔纳传说视频解说,攻略视频,修改器,汉化下载,完美存档,MOD,配置,教学,截图,壁纸等资料。更多《菲尔纳传说》相关内容尽在游侠网。

电影视频 2026-02-03 00:49:45

欢迎来到浙江轩毅信息技术有限公司

浙江轩毅信息技术有限公司专注于智慧图书馆和智慧档案库房的建设，提供高性能的智能书架和智能密集架解决方案。我们的产品采用先进技术，能够提高图书与档案的管理效率和安全性。智能化的设计和定制化的服务使我们成为业界的佼佼者。联系我们，让您的图书和档案管理变得更智能、高效。

设计美化 2026-02-28 20:23:44

【氪新每周看】我们去苏州博物馆吃“阮饭”啦

12月27日星铁1.6版本更新，全新江南风角色阮·梅也正式上线啦！《崩坏：星穹铁道》官方也和苏州博物馆联动，开启了线下活动来和米酒一起速览云游博物馆吧！

2026-02-02 18:36:05

视频号12个变现模式 (视频号有数量限制吗)

视频号12个变现模式，1、短视频带货2、直播，电商3、直播打赏4、社群，直播，在线教育，5、内容，品牌植入6、本地生活探店7、数据增长8、数据服务，MCN，公会入场9、代运营、短视频培训10、专业领域，短视频11、矩阵搬运12、企业岗位薪资增长@老六电商来源，卢松松博客QQ，微信，13340454本文地址，https，lusong...。

2025-01-28 23:21:12

全球创客马拉松安徽站报名启动 (创客马拉松是什么意思)

创客，英文maker，即动手实现创意的人，创客已经成为当下全球最热的一股潮流，在美国有MakerSpace、Techshop、Fablab等诸多为人们提供各种工具如3D打印机、激光雕刻机、切割机等等，可以动手制作东西的场所，在中国的北京、深圳、上海、南京等地，都已经有路比较知名的创客空间，人们可以在这些地方交流分享硬件创意、研发经验、...。

2024-12-10 00:51:43

AMD宣布芯片新买家后股价大涨8.8％AWS的第68次降价顺势到来 (amd最新的芯片组)

11月7日，AMD在美国旧金山举办的，NextHorizon，新品发布会上正式宣布，AWS成为了公司服务器芯片的新合作伙伴，并将会采用霄龙，EPYC，服务器芯片，受此消息影响，AMD股价最高上涨8.8％，有意思的是，AMD芯片业务的竞争对手英特尔短线跌逾1.1%，收跌0.88%，报47.25美元，接近五日新低，CNBC分析称，多年来英...。

2024-12-09 19:06:21

雷锋早报 ARM 年将投入阿里巴巴2022财年Q1财报发布；华为未来营收破2000亿亿美元支持亚太初创生态；英国政府考虑阻止英伟达收购 1 3 (雷锋报刊)

阿里巴巴发布2022财年Q1财报，营收破2000亿、净利润434.4亿元阿里巴巴发布2022财年第一季度财报，营收2057.4亿元，去年同期1537.51亿元，同比增34%；净利润434.4亿元，去年同期475.91亿元，同比下降5%，每ADS盈利16.38元，市场预期9.81元，去年同期17.36元，另据财报，阿里巴巴第一季度月活跃...。

2024-12-09 14:18:51

魔盒 AI的 iPhone时刻英伟达打开生成式模型后 (魔盒功能)

在人工智能应用，淘金潮，的火热背后，总少不了，卖水工，英伟达的，默默付出，最近爆红的ChatGPT也离不逃脱不开这一定律，正如英伟达CEO黄仁勋在GTC演讲中展示的那样，数年以前，正是黄仁勋亲手将附有自己签名与赠语的全球首台DGX交给了OpenAI，正因为这台集成了八块通过NVLink共享算力的H100组成的超级计算机，OpenAI...。

2024-12-03 21:55:55

零食悠品加盟流程是什么 (零食悠品加盟费多少)

1、访问零食悠品总部以及样板间等，也可以电话、手机短信、Email或者是网上咨询留言的方式进行意向咨询，务必仔细浏览零食悠品网上及零食悠品加盟手册，2、加盟商确定有创业意向后，进入意向洽谈阶段，3、经过详细洽谈后，前往零食悠品加盟总部签订，加盟意向书，，在零食悠品总部的大力协助下，进入到店面选址阶段，包括环境评估、商圈评估、店铺评估三...。

2024-12-02 23:14:47

这个灯泡使用时间真实吗爱普生投影怎么看灯泡使用时间 (这个灯泡使用了多少年)

发表在爱普生投影仪2021，7，2311，09爱普生投影仪保值度很高，所以二手市场可以看到很多在售的爱普生投影仪，这些产品通常都很不错，但是有个别设备使用时间过长，液晶板已经开始老化了，为避免这个问题，不少人会选择通过查看灯时来确定使用时长，那么这个方法可靠吗，又该如何查看灯泡使用时间呢，一、爱普生投影怎么看灯泡使用时间1.按下爱普生...。

2024-11-28 21:54:04

投影仪80000亮度是多少流明 (投影仪8000流明有多亮)

发表在专业问答2022，2，515，53展示机型信息，品牌型号，当贝X3系统版本，当贝OS2.0投影仪80000亮度大约是4000流明，80000亮度通常指的是投影仪光源的亮度值，而目前常用的ANSI流明单位是投影仪投射到墙面上所产生的画面亮度值，因此ANSI流明的亮度值会相对低一些，投影仪80000亮度是多少流明投影仪80000亮度...。

2024-11-28 14:18:32

到店实拍2020款上汽荣威RX5！潍坊地域最高活动2万元 (到店实拍2024款XC40:安全,其实只是沃尔沃的起点)

国际自主品牌的开展是十分的迅速的，市场中的多款车型也都获取了不错的效果，近日，笔者在探店的时刻就拍到了2020款的上汽荣威RX5，该车定位紧凑型SUV，售价区间为9.98，14.88万元，目前潍坊地域有最高2万元的活动，2020款上汽荣威RX5的外观在设计上十分的有设计感，进气格栅的设计是十分大气的，外部填充的设计比拟有冲击力，两侧...。

2024-07-07 23:46:06

2011款新宝来1.6静止型智能档车如何驾驶 (2011款新宝来有几种颜色)

新宝来1.6L静止型智能档车辆驾驶如下，1、系号安保带2、踩住刹车发起车辆3、踩住刹车挂挡，理论挡把上有个按键须要按下能力从P档挂到别的档上4、松手刹5、抬刹车，车辆就可以反常行使了，具体一点的智能档车辆驾驶方法，1、档把位置在P，或许N，档位时，钥匙打着车；2、移动档位D行进档或许R前进档时，必定脚踩制动，刹车，；否则移动不了；3、...。

2024-07-05 20:50:21

【Goodsync下载】2022年最新官方正式版Goodsync免费下载

腾讯软件中心提供2022年最新11.5.8.8官方正式版Goodsync高速下载，本正式版Goodsync软件安全认证，免费无插件。

2023-09-19 02:01:05

文章推荐

一代跨洋传奇人物华人首富王安曾令IBM恐慌 (一代跨洋传奇百度百科)

成功与失败之间，说简单也简单，说复杂也复杂，总而言之，只要做人不失败，那就是最大的成功，在美国那一代科技人眼里，跨洋而来的王安不可思议，他是发明家，是企业家，是华人首富，他的创新，令IBM掌门人恐慌，自创业后，天才王安做了一系列英明神武的决策，直到他力排众议，将公司的一切，交付到儿子手里，1945年，初到美国、求学于哈佛的王安，为了解...。

2025-01-30 21:29:12

网络百科

10nm 三星 3nm 英特尔还没量产就要来了 (3nm 三星)

上周的英特尔投资者日上，英特尔方面透露了公司10nm芯片一再延期的原因，并宣称将于2021年发布7nmGPU，详见雷锋网此前报道，然而，就在近日的SFF，SamsungFoundryForum，美国分会上，三星表示，该公司也将在2021年推出一款突破性的产品——这款产品基于3nmGAA，gateallaround，工艺；性能提高35...。

2024-12-09 17:19:58

资讯动态

近期将内测直播功能小红书加速内容变现 (内测公布时间)

语音播放文章内容由深声科技提供技术支持您的浏览器不支持audio元素，历经六年，小红书已经从最初的PDF跨境购物指南成长为了一个月活用户超过1亿，每天产生超过30亿笔记曝光的超级生活方式平台，但自从2017年跨境电商的热潮逐渐退去后，如何商业变现便成了摆在它面前的一道难题，经过长时间的思考和沉淀，如今它似乎找到了答案，11月28日，小...。

2024-11-30 23:38:15

资讯动态

青书学堂怎么设置允许网络下载 (青书学堂怎么上传毕业论文)

青书课堂作为一款广受好评的学习软件，学生不仅能在这里自由学习各种课程，掌握更多章节知识点，同时也能方便教师更好的进行管理，那你知道青书学堂怎么设置允许网络下载吗?下面小编就为大家带来详细操作方法，一起来看看吧，...。

2024-11-20 20:55:59

技术教程

推动全球化的中国方案指的是什么 (推动全球化的因素)

一、强化国内治理，为中国引领新型全球化奠定坚实的国内基础，中国致力于提升国家治理能力，实现市场、政府和社会三者的良性互动，增强国家的软硬实力，从而更好地参与全球治理，特别是在理念供给、政策执行、理论研究和人才培养等方面，中国加强能力建设，以改变全球化过程中的失衡与不公，获得国际社会的广泛共鸣，二、凝聚政治共识，纠正对全球化的错误认知，...。

2024-11-19 13:12:19

资讯动态

Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

相关文章

文章推荐

Codex 神经网络推开高等数学世界大门 PNAS最新研究 81%解题率