高分低能一秒侦破大模型贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)

文章编号：45776 资讯动态 2024-12-09 Ben 大模型 MR 贾佳亚

团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

贾佳亚团队全新评测基准MR-Ben发布，拒绝大模型“高分低能”

随着人工智能领域经历GPT时刻，学术界和产业界共同发力，每月甚至每周都有新的模型问世，大模型产品之多可以说是让人眼花缭乱。为了筛选出真正业界领先的大模型产品，业内衍生出了错综复杂的各类大模型评测方式，大家都希望为大模型做出客观公正的评测，看看究竟哪家产品能力更强。

但为了在行业中“脱颖而出”，业内也不断出现类似“刷榜”的做法，通过专项针对评测题库进行“预训练”从而获取高评分，导致部分大模型出现“高分低能”的现象，在实际场景当中表现不佳。

为此，贾佳亚团队联合MIT、清华、剑桥等多家知名高校，与国内头部标注公司合作，标注了一个针对复杂问题推理过程的评测数据集MR-Ben，基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目，进行“阅卷式”的范式改造，生成更难、更有区分度的新数据集，从而真实地反映模型推理能力。

团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

从“刷题考生”变“阅卷老师”，阅卷式考察反映大模型真实水平

目前主流大模型评测是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。使用这套测试方式的好处有很多, 标准明确、指标直观，且量化结果天然具有话题性。

但作者认为这种逐步作答的思维链方式生成最终答案，并不“靠谱”。

结合大模型的训练方式来看，预训练模型在预训练时早已见过数以万亿级别的词元，很难说被评测的模型是否早已见过相应的数据，从而通过“背题”的方式回答正确。而在分步作答的时候，模型是否是基于正确的理解推理选出正确的选项，我们不得而知，因为评测的方式主要靠检查最终的答案。

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造，如在GSM8K上引入多语言版本的MGSM数据集，在MMLU的基础上引入更难的题目等，依然无法摆脱选择或填空的窠臼。并且，这些数据集都已面临着严重的饱和问题，大语言模型在这些指标上的数值已经见顶，并逐渐丧失了区分度。

而贾佳亚团队的选择是从评测模式的底层进行改革，从而真实反映模型推理能力。

害怕数据泄露导致的大模型背题导致分数虚高吗？贾佳亚团队打造的MR-Ben不用重新找题出卷，也不用把题目变形来测试模型的稳健性，MR-Ben直接让模型从答题者的学生身份，转变为对答题过程的“阅卷”模式，让大模型当老师来测试它对知识点的掌握情况！

不是担心模型对解题过程毫无知觉，有可能出现“幻觉”或错误的理解，蒙对答案吗？MR-Ben直接招聘一批高水平的硕博标注者，对大量题目的解题过程进行精心标注。把解题过程是否正确，出错的位置，出错的原因都细致指出，比对大模型的阅卷结果和人类专家的阅卷结果来测试模型的知识点掌握情况。

具体来说，贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理，并分成了数理化生、代码、逻辑、医药等多个类别，同时区分了不同的难度等级。针对每个类别、收集到的每个问题，团队精心收集了对应的分步解题过程，并经由专业的硕博标注者进行培训和标注。

从评测方式来看，MR-Ben所提出的方法需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析，并对推理过程进行预演来判断当前步骤是否能导向正确答案。

团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式，但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

其次，MR-Ben通过使用了人力精细的标注流程控制，取得了大量的高质量标注，而巧妙的流程设计又使得评测方式能够直观地量化。

知名大模型公开评测，GPT4-Turbo表现最佳

贾佳亚团队针对性测试了时下最具代表性的十大大语言模型和不同版本。可以看到，闭源大语言模型里，GPT4-Turbo的表现最佳（虽然在“阅卷”时未能发现计算错误），在绝大部分的科目里，有demo（k=1）和无demo（k=0）的设置下都领先于其他模型。

团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

部分开源大语言模型在MR-Ben数据集上的测评结果

可以看到，最强的部分开源大语言模型效果已经赶上了部分商用模型，并且哪怕最强的闭源模型在MR-Ben数据集上表现也仍未饱和，不同模型间的区分度较大。

除此之外，MR-Ben的原论文里还有更多有意思的解析和发现，例如：

•Qwen和Deepseek发布的开源模型哪怕在全球梯队里，PK闭源模型效果也不逊色。

•不同的闭源模型定价策略和实际表现耐人寻味。在使用场景里关注推理能力的小伙伴，可以对照价格和能力找到自己心仪的模型去使用。

•低资源场景下，小模型也有不少亮点，MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出，甚至高于或持平几百亿参数的大模型，展现出了微调数据的重要性。

•MR-Ben场景包含复杂的逻辑解析和逐步推断，Few-shot模式下过长的上下文反而会使得模型困惑，造成水平下降的后果。

•MR-Ben评测了不少生成-反思-重生成的消融实验，查看不同提示策略的差异，发现对低水平的模型没有效果，对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对，对的改错，效果反而略有提升。

•将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后，不同的模型在不同的推理类型上各有优劣。

目前贾佳亚团队已在github上传一键评测的方式，欢迎所有关注复杂推理的小伙伴在自家的模型上评测并提交，团队会及时更新相应的leaderboard。使用官方的脚本一键评测，只需花费12M tokens左右，过程非常丝滑，值得一试。

Project Page:

Arxiv Page:

Github Repo:

参考

1.Training Verifiers to Solve Math word Problems（）

2.Measuring Massive Multitask Language Understanding（）

3.LogiQA: A Challenge>

版权文章，未经授权禁止转载。详情见转载须知。

本文地址： https://www.gpxz.com/article/c3e796495da8b15f4014.html

上一篇：连看好莱坞大片都学会了贾佳亚团队用2token

下一篇：人工智能的多模态发展丨CCF腾讯贾佳亚人工

纳米AI

纳米AI，首创多智能体蜂群，一句话生成专家级视频、报告、PPT。纳米AI，集成MCP万能工具箱，打破信息围墙，让搜索更全、更广、更深、更专业。纳米AI，集成DeepSeek，智脑，通义千问等十六家大模型，支持深度推理、个人知识库管理等功能。

网络营销 2026-01-21 12:31:04

什么值得买

什么值得买是千万用户热爱的科学消费指南，以“独立思考、高效决策、利他共享、真知灼见”为核心价值，主张“科学消费，认真生活”。

优惠消费 2026-01-24 21:47:26

云开·全站apply体育官方平台(官方)网站全站/登录入口/IOS/安卓通用版/最新版/手机APP下载

®️云开·全站apply体育官方平台【卧龙推荐】c.lnzhsy.com网站全站/登录入口/IOS/安卓通用版/最新版/手机APP下载®️一款战略对战型的游戏，在游戏中多种人物任你挑选，给你最好的游戏体会，还有很多的多人应战暴戾恣睢等着你，你能在游戏中变得愈加强壮吗，快来试试看吧。

游戏网游 2026-01-24 23:52:26

素材下载

万象素材(www.wanxiangsucai.com)素材中国图片素材免费下载网站！中国素材网专业为设计师朋友提供最新最全面的免费PSD素材天下、矢量图库、PPT模板大全、片头视频素材、电子请柬、Flash素材、PPT背景图片素材、PS笔刷、名片设计欣赏、Photoshop教程、字体下载等。

电影视频 2026-01-25 21:02:08

上海裕美钢结构有限公司

电影视频 2026-01-28 22:01:58

513攻略网

为玩家提供丰富多彩的游戏体验。

游戏网游 2025-01-29 17:58:05

云南青山项目管理有限公司

云南青山项目管理有限公司成立于1994年，是云南省最早成立的监理公司之一。现具有房屋建筑工程监理甲级和市政公用工程监理甲级资质公司经营管理理念是：以人为本、敬业修德、诚信务实、开拓创新。公司将继续在工程建设领域和国土资源开发领域开拓、奉献、服务，为社会贡献更多的合格工程、优质工程和精品工程。

下载资源 2026-01-20 18:56:07

工作服厂家

张家港市永巨工作服厂是苏州,江阴，常熟等地专业生产各类职业装，工作服，劳保服及工装定制的厂家，质量，服务保障，欢迎前来咨合作！

商业服务 2025-02-16 00:26:28

西安天涵模型有限公司

电影视频 2026-01-20 20:41:40

一加手机官网

一加Ace5系列，性能凶猛快人一代 2024.12.2614:30新品发布会

游戏网游 2025-02-22 20:35:49

金陵华软科技股份有限公司

华软科技旗下的精细化工板块，拥有国内领先的光气资源及光气衍生产品-造纸化学品AKD完整产业链，拥有多条先进的医药、农药中间体、农用化学品的生产线。在大健康领域，拥有国内领先的涵盖片剂、粉剂、口服液、膏滋膏方、胶囊等多条保健品的生产流水线。

下载资源 2026-01-31 00:07:43

⼯讯科技(深圳)有限公司

⼯讯科技(深圳)有限公司_结构监测领域设备_智慧城市专注于结构监测领域设备开发的⾼新技术企业

编程开发 2026-02-28 20:50:58

实力如何康复之家用品总部在哪 (如何康复锻炼)

生活质量提高以后，人们的健康养生意识越来越强烈，很多人会购买一些家用康复设备，强身健体，避免一些疾病的发生，康复之家用品在市场运营多年，会员人数突破两百万人次，多种缓解设备，为居民的身体健康保驾护航，到目前为止，加盟连锁店分布在全国多个城市，有着不可动摇地位，那么康复之家用品总部在哪，实力如何，康复之家用品从品牌创立到现在专注器械行业...。

2025-01-31 18:23:32

塔酷儿童运动馆的加盟费多少 (塔酷儿童运动馆)

教育一直以来都是一个比较大，而且相对稳定的市场，在很多的家庭当中，教育消费占总的家庭消费的很大一部分，有更多的家长是越来越重视素质教育，因此，到了周末时刻，孩子们都会到家长安排的兴趣班去学习，当然也是在孩子的兴趣的基础之上去寻找，在教育市场越来越进步的情况下，塔酷儿童运动馆开始了招商，那么，塔酷儿童运动馆的加盟费多少，塔酷儿童运动馆加...。

2025-01-31 17:53:04

上海汤包加盟店怎么样 (上海汤包加盟店需要多少钱)

在南方一带，汤包是备受消费者喜爱的食物，鼎盛轩就是一个以此食物为主，并且借此而获得不错发展的好品牌，那么，上海汤包加盟店怎么样，这个品牌又应该如何加盟呢，上海汤包加盟店怎么样，鼎盛轩，是一个创立于2014年的餐饮品牌，该品牌一直专注汤包的制作和销售，是汤包行业很有名的存在，同时根据搜集的资料显示，该品牌已经在全国设立了五十多家门店，并...。

2025-01-15 21:29:39

微尺度工业设计平台的进化深势科技获数千万美元B轮融资 (微尺度工业设备有哪些)

1月17日消息，深势科技宣布完成数千万美元B轮融资，本轮融资由源码资本、启明创投共同领投，老股东高瓴创投、经纬创投等继续加码，奇迹资本担任本轮融资的独家FA，据了解，本轮融资资金将用于不断吸引行业内顶尖人才，从而深化微尺度工业设计平台的建设，以及相关技术在药物、材料设计等场景的落地，至此，深势科技已在18个月内连续完成了四轮融资...。

2024-12-03 19:50:18

大模型最新突破帮科学家读论文 AI 小菜一碟 (大模型 ai)

自人类迈入信息时代开始，信息资源总量越来越多，信息过载的现象非常严重，英国学者带姆·乔丹曾说，拥有太多信息使信息的利用变得不可能，美国工程师VanneverBush也观察到信息过载的情况，在上个世纪就提出通过计算机来解决日益庞大的信息量问题，MetaAI新近推出的语言大模型Galactica，正是在这样的背景下诞生，由于语言模型可...。

2024-11-30 18:17:09

初中辍学进砖厂搬砖陕西小伙为给母亲治病你如何看待小伙的做法 (初中辍学)

我觉得男子的行为很勇敢，也很有责任感，初中时期当时应该还未成年，放到如今，这个年龄的孩子还在沉迷于打游戏，根本就不知道责任是什么，男子看到母亲生病，宁愿自毁前程，也要让母亲脱离苦海，这种精神只有少部分人才会拥有，这名小伙的具体经历，这名小伙名叫郭子孝，出生在陕西一个小山沟里面，父母都是农民出身，从小郭子孝对读书都很珍惜，然而天不如人愿...。

2024-11-29 14:57:37

投影仪幕布各品牌特点有哪些投影仪幕布什么牌子好 (投影仪幕布的种类与选择)

发表在综合交流大区2024，7，2214，09购买投影仪之后，通常会给投影仪配备幕布，但是幕布品牌种类繁多，因此在选购投影幕布时总是不知道选择哪款，具体投影仪幕布什么牌子好呢，下面就分享投影仪幕布各品牌特点，看看哪些品牌的投影幕布值得入手，投影仪幕布什么牌子好，1.美视，GRANDVIEW，2.英微，IN&，VI，3.红叶Red...。

2024-11-28 19:22:17

胡塞武装袭击未形成美舰受损美国防部 (胡塞武装袭击美国航母编队)

美国国防部发言人帕特·赖德12日示意，也门胡塞武装11日向正在经过曼德海峡的美军驱逐舰，斯托克戴尔，号和，斯普鲁恩斯，号发射了至少8架无人机、5枚反舰弹道导弹和3枚反舰巡航导弹，攻打，被完成挫败，，没有形成军舰受损以及人员伤亡，赖特还说，没有收到，林肯，号航空母舰被攻打的信息，胡塞武装称袭击美军航母并挫败美军袭击外地时期12日晚间，也...。

2024-11-13 17:10:28

A8手机参数性能 OPPO (a8手机参数配置)

OPPOA8是一款性能较为不错的中端手机，以下是它的具体参数性能，外观，OPPOA8驳回了6.5英寸水滴屏设计，在屏幕下方留有一小块，水滴，，用来容纳前置摄像头，整个机身尺寸为163.9×75.5×8.3mm，重量约为180g，机身背部驳回了突变色设计，共有翡翠白、暮色蓝、星河黑三款配色可选；屏幕，OPPOA8的屏幕为6.5英寸IPS...。

2024-07-07 00:28:41

什么网络电话最好 (什么网络电话不显示本机号码)

什么网络电话最好用，1.爱科手机网络电话软件，爱科可在手机上拨打网络电话，提供开明式网络通信服务，包含收费网络电话、短信、聊天和通讯录等配置，成功随时随地与任何人咨询的通讯体验，2.阿里通网络电话，阿里通是抢手的通讯软件之一，语音明晰稳固，小巧繁难，无插件，安保适用，可在电脑和手机上经常使用，3.Skype网络电话，Skype是一款盛...。

2024-07-05 20:19:46

百家号问答怎样发布文章

要在百家号上发布一篇文章，首先需要注册并创建一个账号。接下来，按照以下步骤进行文章发布：1.登录百家号账号，点击“创作中心”或“写百科”按钮进入文章创作界面。2.在创作界面中，点击“新建专题”来添

2023-11-19 04:53:59

长沙医学院让学生入住未完工宿舍楼？湖南省教育厅回应|学校

长沙医学院让学生入住未完工宿舍楼？湖南省教育厅回应,学校,长沙医学院,湖南省教育厅

2023-09-02 16:49:44

文章推荐

小肥羊火锅店加盟条件小肥羊可以加盟吗 (小肥羊火锅店地址)

帮创业者对当前的智慧之选项目进行分析之后，发现开一家火锅店也可以为智慧之选商带来较高的经营，小肥羊火锅店从上世纪末期，开店之后就非常受消费者的欢迎，小肥羊可以加盟吗，想要智慧之选这个项目的加盟商一定要提前了解小肥羊火锅店加盟条件，只要自己符合了公司总部的加盟条件，就可以合格的加入，下面小编就来向大家具体介绍小肥羊加盟项目的加盟条件，小...。

2025-01-16 01:09:36

创业加盟

AI解决优秀教师供给问题行业竞争呈现横纵结合生态系统格局 AI教育论坛 (ai解决问题)

雷锋网按，11月15日，16日，，全球AI，智适应教育峰会，在北京嘉里中心大酒店盛大开幕，峰会由雷锋网联合乂学教育松鼠AI，以及IEEE，美国电气电子工程师学会，教育工程和自适应教育标准工作组共同举办，汇聚国内外顶尖阵容，AI智适应学习是目前产学研三界关注度最高的话题之一，此次峰会，我们邀请美国三院院士、机器学习泰斗MichaelJo...。

2024-12-09 15:22:47

资讯动态

点亮数字化中国的前进之路以北电数智星火 (点亮智库数字化转型)

当前，我国算力建设正处于蓬勃发展的阶段，一方面，国家对于算力基础设施建设的重视程度不断提升，这主要表现在对于数据中心、云计算平台等新型基础设施的建设、升级和持续大规模投入；另一方面，企业亦积极投身于算力建设，通过技术创新与模式创新，不断提升算力服务的水平和质量，例如，一些领先的科技企业正致力于研发更为高效的算法与架构，以应对日益增长的...。

2024-11-30 19:17:32

资讯动态

你真的清楚吗? 人工智能和机器学习之间的区别 (你真的清楚吗英语)

译者，AI研习社，听风1996，双语原文链接，MachineLearning，ML，vs.ArtificialIntelligence，AI，—CrucialDifferences最近，一份关于那些声称在其产品和服务上使用人工智能[][]的公司滥用人工智能的报告发布，根据[]的数据，40%声称使用人工智能的欧洲初创公司其实并没有使用这...。

2024-11-30 18:25:07

资讯动态

极米h3s和h3区别 (极米h3s和h5哪个性价比高)

fonmm大神级投影控发表于2023，12，13极米H3S和H3主要在芯片、画质、智能、体验上有所区别，1.芯片，极米H3S和H3的芯片大小都一样，都是12nm，不过在具体处理器方面，H3S采用了新一代的CPU，MT9669处理器，相比上代的H3，在图像处理能力上有所提升，2.画质，极米H3S和H3在画质上表现差不多，都属于同价位投影...。

2024-11-28 17:43:46

网络百科

高分低能 一秒侦破大模型 贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)

相关文章

文章推荐

高分低能一秒侦破大模型贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)