Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号:43953 资讯动态 2024-12-09 Codex 神经网络 高等数学
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题!

在这项新研究中,研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

这项研究的出现,颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出,Codex 之所以能做到实现这样的能力,正是因为团队进行了一大创新,过去那些不成功的研究只使用了基于文本的预训练,而此次现身的 Codex 神经网络不仅要基于文本进行预训练,并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和 计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时,研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6大数学板块:初级代数,代数,计数和概率,中级代数,数论,和初级微积分中各抽取15个问题。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
图注:研究中使用的课程问题数据集和MATH基准测试

研究显示,Codex 解决了问题数据集和 MATH 数据集中的 265 个问题,其中有 213 个是自动解决的。



创新何所在

在 Transformer 发布后,基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务,包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练,所以这些模型基本上不能解决数学问题,GPT-3就是一个典型例子。

后来,通过小样本学习(few-shot learning)和思维链 (Chain-of-thought, CoT) 提示,GPT-3 的数学推理能力得到了提高;然而,在没有代码的情况下,即便有小样本学习和 CoT 提示, GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究,可能在相对简单的数学水平上有一定成绩。举个例子,基于协同训练输出来验证或预测表达式树的技术,比如MAWPS 和 Math23k,能够以超过 81% 的准确率解决小学级别的数学问题,但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树,能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案,并且产生了过拟合,不能推广到其他课程。

就是,不仅对Codex 这种Transformer 模型进行了文本上的预训练,还在代码上进行了微调,使得其可以生成大规模解决数学问题的程序。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中,仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下,使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络(OpenAI Codex code-davinci-002)合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习,便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题,最后通过手动提示解决。

小样本学习方式的补充,则是这项研究的 。从上图中可以看出,当零样本学习无法解答问题时,便会使用(问题,代码)对(pair)执行小样本学习:

1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;

2) 使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题;

3) 将最相似的问题及其相应的代码作为小样本问题的示例。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

图注:4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出,橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现,基本上在每个数学领域上的表现都强于其他3种方式。

,便是提供了一条解决数学问题和解释为何如此解答的管道,下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例,给定一个问题和自动生成的前缀“使用 SymPy”,Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后,程序会自动提示再次输入 Codex,从而生成生成的代码解释。




问题解决之后

除了解决数学问题和解释答案,Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平,团队在参加过这些课程或者同水平课程的MIT学生中做了调查,主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中,每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题,参与调查的学生都需要回答 3 个调查问题:

1)你认为这个问题是人工编写的还是机器生成的?

2)你认为这个问题适合还是不适合特定课程?

3 ) 在 1(最简单)和 5(最难)之间,你认为这个问题的难度级别是多少?

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

在收回的问卷中,学生调查结果总结如下:

机器生成的问题已经能让学生无法辨别,说明Codex 在生成新内容方面已达到了人类的表现水平。

但是,该模型也有无法解决的问题,比如,如果问题以图像或其他非文本形式出现,它就无法回答;带有需要证明的解决方案的问题,或者计算上难以解决的问题,比如分解非常大的素数,该模型也无法解决。不过,最后一种问题也不应出现在任何数学课程作业中,因为就算是真人学生也没法回答。

更多内容,点击下方关注:

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

版权文章,未经授权禁止转载。详情见 转载须知 。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门


本文地址: https://www.gpxz.com/article/f1fe3d3cfd53131e9c24.html
全局中部横幅
全局中部横幅
【正穗】汕尾公司注册

汕尾正穗财税网(电话:400-600-5982)从事汕尾地区中汕尾代理记账,公司注册,提供地址注册,商标专利注册申请等15年行业服务经验,我们认为认真实干,追求完美才能赢得企业家的信任与支持.正穗为您服务,专业至诚,无微不至,值得信赖,请相信您的选择!

aa上海工程拆除

上海盛醴建筑拆除工程有限公司专业提供上海各类工程拆除、垃圾清运服务,拆除工程包括酒店拆除、宾馆拆除、商场拆除、厂房拆除、钢结构拆除、桥梁拆除、大型设备拆除、烟囱拆除、上海垃圾清运等服务,本公司从事拆除行业多年,具有丰富的拆除经验,擅长整体承包拆除工程,有专业人员拆除室内一切有专业人员拆除室内一切结构,还原毛坯房。机械拆除楼房及大型厂房,负责垃圾拖运并清理现场。

不锈钢自吸离心泵,直联式不锈钢自吸泵

中球泵业(www.pumpzq.com)是专业不锈钢自吸离心泵,直联式不锈钢自吸泵供应商,公司不仅具有精湛的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈

除湿机

浙江宁波辰宁新风系统主要生产除湿机,工业除湿机,除湿设备,冷风机,冷气机,水冷风机等新风除湿设备,公司拥有二千多平方米仓库。

扬中市鸿运制盖厂

扬中市鸿运制盖厂,主要产品有:药品包装用涂层铝带、铝板,各类药用铝塑组合盖(输液、冻干粉针、生物制品、血制品、口服液、各种塑料输液容器用聚丙烯组合盖)。

欣文阅读

欣文阅读是欣文网打造的垂直阅读类内容平台,旨在为读者们提供优质内容!

千锋教育IT培训班

【千锋教育-IT培训机构良心品牌】提供java培训,web前端,物联网,linux云计算,UI,全媒体等IT培训课程,涵盖开发,设计,运营三大IT培训方向,严选师资,面授品质,用心服务每一个学员,赢得市场好口碑.

260吨吊车

聚焦建筑行业资讯,覆盖建筑多个领域,为建筑行业人士带来专业的建筑资讯服务。

阅报栏灯箱

龙喜宣传栏精神堡垒价值观标牌标识科技有限公司拥有厂房面积5000多平米是专业的阅报栏灯箱生产厂家,外形美观,价格公道,并支持来图订制,欢迎广大客户来电咨询。

菲尔纳传说

菲尔纳传说游戏专题;提供菲尔纳传说中文版下载,菲尔纳传说攻略大全,菲尔纳传说汉化补丁,菲尔纳传说视频解说,攻略视频,修改器,汉化下载,完美存档,MOD,配置,教学,截图,壁纸等资料。更多《菲尔纳传说》相关内容尽在游侠网。

欢迎来到浙江轩毅信息技术有限公司

浙江轩毅信息技术有限公司专注于智慧图书馆和智慧档案库房的建设,提供高性能的智能书架和智能密集架解决方案。我们的产品采用先进技术,能够提高图书与档案的管理效率和安全性。智能化的设计和定制化的服务使我们成为业界的佼佼者。联系我们,让您的图书和档案管理变得更智能、高效。

全局底部横幅