Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号:43953 资讯动态 2024-12-09 Codex 神经网络 高等数学
PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题!

在这项新研究中,研究团队证明了 openAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

这项研究的出现,颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出,Codex 之所以能做到实现这样的能力,正是因为团队进行了一大创新,过去那些不成功的研究只使用了基于文本的预训练,而此次现身的 Codex 神经网络不仅要基于文本进行预训练,并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和 计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时,研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6大数学板块:初级代数,代数,计数和概率,中级代数,数论,和初级微积分中各抽取15个问题。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门
图注:研究中使用的课程问题数据集和MATH基准测试

研究显示,Codex 解决了问题数据集和 MATH 数据集中的 265 个问题,其中有 213 个是自动解决的。



创新何所在

Transformer 发布后,基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务,包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练,所以这些模型基本上不能解决数学问题,GPT-3就是一个典型例子。

后来,通过小样本学习(few-shot learning)和思维链 (Chain-of-thought, CoT) 提示,GPT-3 的数学推理能力得到了提高;然而,在没有代码的情况下,即便有小样本学习和 CoT 提示, GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究,可能在相对简单的数学水平上有一定成绩。举个例子,基于协同训练输出来验证或预测表达式树的技术,比如MAWPS 和 Math23k,能够以超过 81% 的准确率解决小学级别的数学问题,但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树,能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案,并且产生了过拟合,不能推广到其他课程。

就是,不仅对Codex 这种Transformer 模型进行了文本上的预训练,还在代码上进行了微调,使得其可以生成大规模解决数学问题的程序。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中,仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下,使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络(OpenAI Codex code-davinci-002)合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习,便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题,最后通过手动提示解决。

小样本学习方式的补充,则是这项研究的 。从上图中可以看出,当零样本学习无法解答问题时,便会使用(问题,代码)对(pair)执行小样本学习:

1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;

2) 使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题;

3) 将最相似的问题及其相应的代码作为小样本问题的示例。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

图注:4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出,橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现,基本上在每个数学领域上的表现都强于其他3种方式。

,便是提供了一条解决数学问题和解释为何如此解答的管道,下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例,给定一个问题和自动生成的前缀“使用 SymPy”,Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后,程序会自动提示再次输入 Codex,从而生成生成的代码解释。




问题解决之后

除了解决数学问题和解释答案,Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平,团队在参加过这些课程或者同水平课程的MIT学生中做了调查,主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中,每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题,参与调查的学生都需要回答 3 个调查问题:

1)你认为这个问题是人工编写的还是机器生成的?

2)你认为这个问题适合还是不适合特定课程?

3 ) 在 1(最简单)和 5(最难)之间,你认为这个问题的难度级别是多少?

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

在收回的问卷中,学生调查结果总结如下:

机器生成的问题已经能让学生无法辨别,说明Codex 在生成新内容方面已达到了人类的表现水平。

但是,该模型也有无法解决的问题,比如,如果问题以图像或其他非文本形式出现,它就无法回答;带有需要证明的解决方案的问题,或者计算上难以解决的问题,比如分解非常大的素数,该模型也无法解决。不过,最后一种问题也不应出现在任何数学课程作业中,因为就算是真人学生也没法回答。

更多内容,点击下方关注:

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门

版权文章,未经授权禁止转载。详情见 转载须知 。

PNAS最新研究:81%解题率,神经 Codex 推开高等数学世界大门


本文地址: https://www.gpxz.com/article/f1fe3d3cfd53131e9c24.html
全局中部横幅
全局中部横幅
盛世收藏网

盛世收藏网论坛是收藏行业内潜力满满的Web2.0互动交流平台。丰富高质的论坛内容和精彩不断的定期活动,得到了众网友的认同,励志成为业界领先的专业的论坛。盛世收藏网

泡菜火锅面

豆果美食为华人美食菜谱社区,提供各种美食、菜谱大全、食谱大全、精选的家常菜谱大全,用户通过图文形式记录生活的点滴,社区每天产生数万次的笔记曝光,内容覆盖时尚、护肤、美食、旅行、影视、读书、健身等各个生活方式领域。与千万会员一同分享的人生!

野外电动缸,调平,垂直式电动尾板,西安方元明科技股份有限公司

西安方元明是一家从事大载荷电动缸,野外电动缸,调平,千斤顶,六自由度用电动缸,垂直式电动尾板的研发、生产、销售于一体的企业。

系统之家

软件下载站分享,win7系统下载,Win10系统下载,Win11系统下载,软件下载,官方软件,国外软件,桌面软件,提供装机必备软件下载,电脑重装系统的正版软件下载站。

华夏视窗网

华夏视窗网提供海量优质的范文、经验、百科、常识、知识、问答供大家学习和了解。

东莞市创音电声科技有限公司

东莞市创音电声科技有限公司成立于2005年,专注电声配件领域17年,年产喇叭6000万只,耳套3000万只,为中、高端耳机提供合适的喇叭、耳套、头带_电子电工

云表

云表是面向企业管理的无代码开发平台,不需要代码就能开发WMS仓库管理系统,CRM,OA,进销存,ERP系统等丰富的管理软件。

龙迅长天

龙迅会员管理系统2009年推向市场,包括美业管理,会员管理,马场预约管理,微商城,小程序商城,大闸蟹提货系统,自助提货系统,提货系统,提货软件,微信公众号提货系统,二维码提货系统,卡券提货系统,另外还提供免费设计提货卡,二维码提货券设计印刷。

律影

律影-影视传媒文化娱乐随身律师,为影视行业提供影视合同法律服务、影视融资法律服务、IP版权法律服务,知识产权法律服务,影视著作权纠纷法律服务,同时提供影视公司法律顾问和影视行业个人法律顾问服务。是影视行业随身律师

企鹅码

企鹅码一物一码全生态平台-专注研发防伪,二维码营销,防窜货追溯,产品溯源领域的企业级服务系统


全局底部横幅