ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

文章编号:44839 资讯动态 2024-12-09 ChatGPT 大模型能力角逐 谷歌Gemini

最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

论文地址:

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。MIXtral 只对部分任务进行了评估。)

二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_maThematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 dateTIME,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章,未经授权禁止转载。详情见 转载须知 。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力


本文地址: https://www.gpxz.com/article/c07f3aabecdb6051e51d.html
全局中部横幅
全局中部横幅
北京宏裕科技发展有限公司

施耐德电气在公司近180年的发展历程中不断开拓进取,积极创新。公司核心产品:APCUPS电源,APC电源,APC,施耐德ups电源,施耐德UPS,施耐德电源,APC不间断电源等。

94正能量句子

94正能量句子网传递正能量,宏扬正能量风气。

服饰指南网

服饰指南网,服饰大百科

酒店设备回收

恒林(广州)再生资源回收有限公司提供酒店回收,空调回收,电脑回收,库存物资回收,稀有金属回收,有色金属回收,医疗设备回收,实验设备回收,旧设备回收,电子设备回收各种废品回收等,可提供上门回收服务,欢迎来电咨询。

万通智能装备

万通智能装备(苏州)有限公司专注于管材切割焊接(orbitalcutter)等领域解决方案,致力于提供高品质的切管机、坡口机、平口机、管道焊接机、轨道焊接机等设备。作为自动切管机厂家,我们还拥有平口机、行星式切管机、轨道式切管机等多种产品。专业品质,值得信赖。

首页

重庆移通学院是全国十佳优秀独立学院!中国最具品牌价值独立学院!西部信息产业国际化人才的摇篮!

佐宝热线

佐宝热线提供海量优质的范文、经验、百科、常识、知识、问答供大家学习和了解。

联想

联想_lenovo笔记本电脑_平板电脑_手机_台式机_服务器_外设数码_联想官网

暖通企盟

暖通企盟网集合众多暖通设备和配件的生产厂商及经销商,提供全方位空调、供暖、给排水设备及材料的采购与销售。品牌齐聚,一站比价,快速成交,全面覆盖暖通各个领域,为用户提供多元化选择和实时市场价格。透明化交易流程,便捷化的订单处理,助力您的企业飞速发展。开启智能采购新时代,让您的工程无忧。

OPPO影音官网

OPPO影音,享誉业界的高端影音品牌,主营产品包含耳机、耳放、蓝光机等。凭借尖端技术、精湛设计、顶级器件、出众工艺,屡获国际殊荣,更赢得了全球消费者的高度评价。

美加狮FGG

FGG官网-全新独立外设品牌FGG,出品极致电竞装备,打造潮流外设产品。

全局底部横幅