ChatGPT 综合不敌最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

文章编号：44839 资讯动态 2024-12-09 ChatGPT 大模型能力角逐谷歌Gemini

最近谷歌发布的 Gemini 格外引人注目，其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示，Gemini 的“Ultra”版本在各种任务上都优于 GPT-4，而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量，美国卡内基梅隆大学近日展开了一项研究，深入探讨了谷歌 Gemini 的语言理解和生成能力，并将其与 OpenAI 的 GPT 系列作了对比，得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

论文地址：

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题：

其一，对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较，并提供了可重现的代码和完全透明的结果；

其二，对结果进行了更深入的研究，找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析，包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上，CMU 团队分析发现：

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当，其准确度一般与 GPT 3.5 Turbo 相当，但略逊于 GPT 3.5 Turbo，比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo，尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中，Gemini 的表现优于 GPT 3.5 Turbo，包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中，Gemini 也善于使用多种语言。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

图为基准测试的主要结果（最佳模型以粗体显示，次佳模型以下划线显示。MIXtral 只对部分任务进行了评估。）

二、大模型关键能力分析

在大模型的几项关键能力上，团队的具体研究结果如下：

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

在大模型的问答能力层面，从上图中可以看出每个模型在部分代表性任务上的表现，与 GPT 3.5 相比，Gemini Pro 在大多数任务上表现不佳，思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距，得出结论：

1）Gemini Pro 在 human_sexuality（社会科学）、formal_logic（人文科学）、elementary_maThematics（STEM）和 professional_medicine（专业领域）方面落后于 GPT 3.5。

2）在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中，Gemini Pro 只取得了微弱的优势。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

在推理能力层面， Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo，但Gemini Pro 在更长、更复杂的问题上表现不佳，而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务：

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

从数学推理的总体结果可以看出，在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中，Gemini Pro 的准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo。

在 MAWPS 任务中，所有模型的准确率都超过了 90%，但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

代码能力生成方面，在英语任务中，Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现，在大多数使用库的情况下，如 mock、pandas、numpy 和 dateTIME，Gemini Pro 的性能比 GPT 3.5 差。

不过，在 matplotlib 的情况下，它的性能要优于 GPT 3.5 和 GPT 4，这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

在翻译能力上，Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下，Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 种语言上取得了最佳表现。不过，Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章，未经授权禁止转载。详情见转载须知。

CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

本文地址： https://www.gpxz.com/article/c07f3aabecdb6051e51d.html

上一篇：高通电脑平台更新骁龙8cx3Gen高通电脑平台

下一篇：5G时代如何打好安全牌360专家划重点5g时代

北京宏裕科技发展有限公司

施耐德电气在公司近180年的发展历程中不断开拓进取，积极创新。公司核心产品：APCUPS电源，APC电源，APC，施耐德ups电源，施耐德UPS，施耐德电源，APC不间断电源等。

科技创新 2026-01-21 13:26:18

94正能量句子

94正能量句子网传递正能量，宏扬正能量风气。

电影视频 2026-01-21 13:39:21

服饰指南网

服饰指南网，服饰大百科

奖券活动 2026-01-24 23:00:59

酒店设备回收

恒林（广州）再生资源回收有限公司提供酒店回收,空调回收,电脑回收,库存物资回收,稀有金属回收,有色金属回收,医疗设备回收,实验设备回收,旧设备回收,电子设备回收各种废品回收等，可提供上门回收服务,欢迎来电咨询。

下载资源 2026-01-24 23:37:23

产品查询

产品中心

查询工具 2026-01-25 22:57:26

万通智能装备

万通智能装备(苏州)有限公司专注于管材切割焊接(orbitalcutter)等领域解决方案，致力于提供高品质的切管机、坡口机、平口机、管道焊接机、轨道焊接机等设备。作为自动切管机厂家，我们还拥有平口机、行星式切管机、轨道式切管机等多种产品。专业品质，值得信赖。

贸易批发 2026-01-28 17:35:28

首页

重庆移通学院是全国十佳优秀独立学院！中国最具品牌价值独立学院！西部信息产业国际化人才的摇篮！

企业品牌 2026-01-29 12:28:18

佐宝热线

佐宝热线提供海量优质的范文、经验、百科、常识、知识、问答供大家学习和了解。

新闻资讯 2026-01-29 17:28:52

联想

联想_lenovo笔记本电脑_平板电脑_手机_台式机_服务器_外设数码_联想官网

硬件数码 2025-01-30 16:24:22

暖通企盟

暖通企盟网集合众多暖通设备和配件的生产厂商及经销商，提供全方位空调、供暖、给排水设备及材料的采购与销售。品牌齐聚，一站比价，快速成交，全面覆盖暖通各个领域，为用户提供多元化选择和实时市场价格。透明化交易流程，便捷化的订单处理，助力您的企业飞速发展。开启智能采购新时代,让您的工程无忧。

商业服务 2025-02-06 20:08:21

OPPO影音官网

OPPO影音，享誉业界的高端影音品牌，主营产品包含耳机、耳放、蓝光机等。凭借尖端技术、精湛设计、顶级器件、出众工艺，屡获国际殊荣，更赢得了全球消费者的高度评价。

设计美化 2026-01-23 22:23:49

美加狮FGG

FGG官网-全新独立外设品牌FGG，出品极致电竞装备，打造潮流外设产品。

游戏网游 2026-02-04 22:52:30

单肩包加盟什么牌子好 (单肩包加盟什么店好)

出门在外，没有包，那么越来越大的手机、钱包、各式的卡，放哪儿，加上现今，随着生活水平的提高，包已经不再是盛物的容器，而是逐渐变成一种时尚，对于社会来说，包更是一种身份的象征，所以，现今生活中，包是不可或缺的，那么，单肩包加盟什么牌子好，为了让大家能够简洁明了的了解相关品牌的可加盟性，小编准备了单肩包加盟排行榜，希望投资商们能够从中得知...。

2024-12-21 15:13:54

开一家化妆品店需要多少钱 (开一家化妆品店需要投资多少)

对于现在很多创业者来说，大家更加想要选择有发展市场，而且一直经营又很稳定的项目，化妆品销售对于现代和创业者来说也能认可，不少创业者也想要开化妆品店，开一家化妆品店需要多少钱，关于筹备店铺所需要的费用，大家要根据实际情况准备，开化妆品店有很多种选择，可以自己找到合适的货源，自己开店也可以选择品牌开专卖店，这样经营也会很轻松，如果开一家经...。

2024-12-21 15:05:45

解禁了！时隔天 89 中兴事件终于尘埃落定！ (解禁了什么意思)

雷锋网消息，当地时间7月13日，美国商务部在官网发布正式声明，称中兴已经将4亿美元的保证金放在一家美国银行；由此，该部门已经移开了针对中兴的禁售令，这意味着，沸沸扬扬的中兴事件正式告一段落，美国商务部表示，根据其与中兴在6月份达成的协议，中兴已经向美国财政部缴纳了10亿美元罚金，并上交了4亿美元的保证金，不过，按照美国商务部长Wilb...。

2024-12-09 22:22:22

你的NFC手机为何不能读公交卡 (你的nfc是什么意思)

如题，相信大家肯定有过类似疑问，朋友的NFC手机能查看公交卡余额，部分还能用支付宝为它充值，但你的却连读都没法读；或者，能读、但是非常不稳定，四五次才有一次成功，类似NFC的手机连接技术为数不少，还有红外、蓝牙、WiFi等，上述提到的问题，大家也都会碰到，但像NFC这样普遍的，使用错误，问题还是非常少见，原因在于，由于历史遗留，NFC...。

2024-12-09 20:13:26

英特尔FPGA的万人计划进行到哪一步了 (英特尔fpga中国创新中心)

2018年底，英特尔全球最大的FPGA创新中心落户重庆，去年，英特尔中国战略合作与创新业务部董事总经理、英特尔创新加速器总负责人李德胜接受雷锋网等媒体采访时表示，我们有一个非常重要的计划，希望能与生态合作伙伴一起，三年之内在中国培养超过一万名的FPGA专业人员，到今年底，英特尔FPGA创新中心就成立两年了，他们的人才计划进行的怎么...。

2024-12-09 17:18:00

Qualcomm连续三年获评引领5G之路世界互联网领先科技成果 (qualcomm snapdragon778g好不好)

11月7，9日，第五届世界互联网大会在乌镇举行，Qualcomm首席执行官史蒂夫·莫伦科夫出席大会并在开幕式上发表演讲，同时，Qualcomm凭借全球首款全集成5G新空口射频模组，再次获评，世界互联网领先科技成果，，并应邀在大会现场进行了成果展示和发布，这是Qualcomm连续三年凭借领先的5G技术和产品获此殊荣，实现了5G项目上的，...。

2024-12-03 23:13:00

Shopee踩刹车背后内斗不休腹背受敌决策滞后 (shopee跨境电商平台官网)

Shopee似乎依旧没走出去年业务大调整的阴影，近日随着Shopee母公司Sea的财报公布，Shopee的营收虽然大涨36%，可市场依旧对其数字上的增长持保守态度，Sea的股价也随之下跌17%，而越传越盛的，ShopeeCEO冯陟旻即将离职，的传言，很有可能会将其卷入下一场风暴，冯陟旻是去是留，让时间说话前段时间，，ShopeeCEO...。

2024-12-03 22:02:22

机器人厂商入局字节菜鸟抢投战国时代仓储物流的 10 (机器人生产厂商)

一场数智化物流变革正在悄无声息地进行中，尤其是近年来，随着电商、快递的快速发展，物流行业也迎来了智能化、数字化转型，伴随上下游产业链条的智能化升级，物流机器人产品开始被普及、应用，其中，在仓储物流领域，AGV，自动引导车，、AMR，自主移动机器人，等机器人产品逐渐取代人工，仓储自动化市场经历了一段高速发展时期，涌现出一大批机器人厂商—...。

2024-12-03 15:54:27

人到中年职场半坡 (人到中年职场不如意)

1甩中年人包袱，我们可以接管团队，但不可能接管一个老大，新部门的负责人开门见山地对方勇说，方勇是高德地图一个业务部门的负责人，一年前，他被空降到高德的高管叫到了会议室，告诉他由于公司组织架构调整，他所负责的团队将要合并到另一个部门，并委婉地告诉他，可以跟着一块过去，但新部门的负责人并不欢迎他，双方踢皮球，真实的情况是，他被架空了，他...。

2024-11-21 23:24:58

需要退款从新处置退款 (需要退款从新申请吗)

因为自己购置机票时，不小心看错期间，购票后，才发现期间错了，就马上退票了，没有购置过机票，就疑问退费规定，当天收到退费后，才发现手续费扣的比残余退款还多，确实不能接受，两张机票原价2960，如今只退1166，扣了1794元，咱们都是诚恳个别的人，挣点工资十分不容易，家里四位老人，2个孩子，这一千多是咱们辛辛劳苦挣了半个月的工资，一家人...。

2024-07-17 07:37:08

一切居民撤退！以军公告

外地期间7月10日午间，以色列军队收回公告，需要一切居民撤退加沙城，有目击者称，以军出动了战机向民众分发传单，此外，以色列军方发言人阿维哈伊·阿德雷伊今日在社交媒体上发文，呐喊加沙城居民所有撤退至加沙地带中部地域，称加沙城将是，风险的交兵区，△联结国近东救援工程处，资料图，今日早些时刻，以军发布信息称，对位于加沙城的联结国近东救援工...。

2024-07-11 21:29:22

新帕萨特1.4T怎样样 (新帕萨特1.4T)

关于那些寻求新帕萨特1.4T消息的生产者，这款车型的能源性能无疑值得美化，从起步、减速到上坡，它的体现都无比出色，完全能够满足家庭出行的需求，1.4T发起机与DSG变速器的完美联合，提供了驾驶者轻松惬意的驾驶体验，让家用车的温馨性优化到了新的档次，新帕萨特1.4T在外观设计上雷同亮点颇多，流利的线条设计充沛迎合了现代审美，车内空间宽阔...。

2024-07-07 05:24:31

文章推荐

流行的经营农场游戏下载2024 免费的经营类游戏农场排行榜 (现代农业经营形式)

厌倦了城市中喧嚣的玩家都想回到乡下体验经营农场的乐趣，其实在移动平台上有很多高自由度经营农场的游戏值得一玩，真实的农场环境塑造给人身临其境之感，那么免费的经营类游戏农场排行榜情况怎么样，下文这几款农场主题的经营游戏内容温馨治愈，较为自由的经营设定提高了可玩性，1、，卡通农场，卡通农场是款画风卡通可爱的2.5D视角模拟经营农场的游戏，在...。

2025-02-11 23:45:03

资讯动态

西安黄家泡馍可以加盟吗 (西安黄家泡馍有几家分店)

一直以来餐饮行业都是颇具有热度，消费者日常生活中离不开的存在，也是很多创业者所感兴趣的热门行业，各地都是拥有具有代表性的美食系列，比如提起武汉大家就会想起热干面、提起南京就会想起鸭血粉丝、提起重庆就会想起小面火锅等，今天小编带大家了解的是西安的特色美食羊肉泡馍，其中西安黄家泡馍作为正宗且具有名气的一个品牌，发展上自然得到了消费者的认可...。

2025-01-31 20:02:16

创业加盟

面皮加盟流程和条件 (面皮加盟店)

在很多人的心中都有致富的梦想，往往人们只有想法没有方向，不知道如何选择加盟的项目，市场需求量高、发展空间大的项目是可以帮助创业者实现致富梦想的好选择，餐饮行业一直以来都呈现朝阳发展的现状，在市面上出现很多面皮品牌，家家店的生意都十分的火热，闻名前来用餐的食客都不间断，是很有发展潜力的创业项目，接下来，小编为大家介绍面皮加盟流程和条件是...。

2025-01-31 17:58:19

创业加盟

网联要来了！支付宝微信地位不保了 (网联网了吗)

现在有了网络支付平台，也就是第三方的支付平台一般银行的地位已经岌岌可危了，但是支付宝的日子会这么好过吗，据国家工商总局企业注册局官网公布，1月17日，，网联清算有限公司，名称已获，预，核准，网联，全称非银行支付机构网络支付清算平台，而这个平台在功能上与银联十分相似，因而也被业界称之为，网联，网联正式获得工商局核准，接下来就应该正式开...。

2025-01-30 23:06:42

网络百科

是一种无情的基因 Google的创新DNA (无情也是一种深情)

Google在近日向用户发出通知，2月16日，Google将停止GoogleTalk服务，即时通讯服务将悉数转移到视频群聊软件GoogleHangouts中——至此，GoogleTalk这一款曾经阻击Skype多年的IM产品，正式地被拔掉了氧气管，和预料中的情况一样，对于这位老兵的寿终正寝，人们并没有太多唏嘘，事实上，任何一个Goog...。

2024-12-09 20:00:56

资讯动态

ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

相关文章

文章推荐

ChatGPT 综合不敌最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)