ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

文章编号:44839 资讯动态 2024-12-09 ChatGPT 大模型能力角逐 谷歌Gemini

最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

论文地址:

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)

二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 dateTime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章,未经授权禁止转载。详情见 转载须知 。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力


本文地址: https://www.gpxz.com/article/c07f3aabecdb6051e51d.html
全局中部横幅
全局中部横幅
美食大战老鼠

美食大战老鼠是一款集合策略性和挑战性的休闲塔防游戏。4399美食大战老鼠官网提供美食大战老鼠视频,美食大战老鼠网页版,美食大战老鼠在线玩,美食大战老鼠游戏攻略等。

泡菜火锅面的全部作品及图片

豆果美食用户们制作的泡菜火锅面的全部作品及图片

山东聚盈防水材料有限公司,公司专业生产销售:聚乙烯丙(涤)纶高分子防水卷材

山东聚盈防水材料有限公司生产聚乙烯丙(涤)纶高分子防水卷材,聚氯乙烯(PVC)防水卷材,热塑性聚烯烃(TPO)防水卷材,自粘聚合物改性沥青防水卷材,自粘聚合物改性沥青聚酯胎防水卷材,自粘预铺防水卷材,自粘湿铺防水卷材,非沥青基高分子自粘胶膜防水卷材,单/双组分聚氨酯防水涂料、非固化橡胶沥青防水涂料、聚合物水泥(JS)复合防水涂料等十几种防水产品

热喷涂零零一

热喷涂零零一网提供热喷涂技术、热喷涂设备、热喷涂材料、热喷涂加工的信息,收录了大量的热喷涂企业信息,并且有大量的热喷涂资料、标准供大家参考。

液位传感器

压力变送器哪家好?压力传感器价格?上海望源测控仪表设备有限公司,是一家专业从事压力传感器、压力变送器、液位传感器等工业过程控制测量仪器仪表服务和解决方案的高新技术企业,上海望源厂家专业提供压力、液位、温度、流量和显示仪表的过程解决方案。

铨盛聚碳科技股份有限公司

15年来,铨盛专注于高分子合成材料的研发与销售,其PC阻燃剂、抗滴剂、PC增韧剂等塑料助剂产品被广泛应用于国内外塑料改性领域。壹马耐燃、飞猴抗滴、金狐增韧为pc改性提供实效的解决方案,是一站式pc改性方案提供商

斑驳蓝

斑驳蓝是一个全球性的创作知识学习资源中心,致力于为各行业创作者提供一个综合性学习进阶平台,不仅为创作者提供了安全快捷的交易环境,还为买卖双方提供了安全的交易模式,满足创作者与学习者在内容创作方面的多样化需求。

熊童子

熊童子周易算命易经知识网。提供在线算命服务,算命大全汇集了周易算命、姓名算命、生辰八字算命、周易起名等传统命理,以及塔罗占卜,星座算命、等等玄学知识!

首页

Mooncell是一个非盈利性质的FGO资料Wiki网站

朔州科技网

朔州科技网是一个集家电科技、手机通讯、科技数码、人工智能、智慧交通、智慧生活、智能家居以及大数据等多个领域于一体的综合性科技信息平台。它致力于为广大用户提供最新、最全面的科技资讯。


全局底部横幅