大模型2024高考发榜 豆包等三款国产AI考上文科一本线 (大模型2024)

文章编号:43563 资讯动态 2024-12-09 高考 大模型 豆包

大模型参加高考,能考多少分,上什么大学?

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线。

与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

大模型2024高考发榜,豆包等三款国产AI考上文科一本线

大语言模型遇上语言考试:有望冲满分

语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。

凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为128分、125.5分和120.5分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。

作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为:“Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得30分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得80分满分,豆包和文心一言4.0也接近满分。但是在40分的写作考试中,最高分只有29分,分别由GPT-4o和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。

文综出色,豆包获“历史”最高分

在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o获得237分的成绩,平均分达到79分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到224.5分,其中历史科目拿到82.5分,在所有9款大模型中得分第一。

政治考试中,GPT-4o出人意料的获得了88分的最高分,百小应和豆包得分超过80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的GPT-4o得到最高分,但仅有68分。

河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。在过去一年多时间里,国产AI技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。

数理全线不及格,AI有待提升

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前30%。

以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分),目前的大模型只能正确推理步骤相对简单的问题。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100和110)。化学单项最高分由豆包获得,成绩为49.5分,GPT-4o仅有42分。大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。要学会像人类一样思考和解决问题,大模型还有很长的路要走。

大模型2024高考发榜,豆包等三款国产AI考上文科一本线

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/e1ca5543e6356419a8e2.html
全局中部横幅
全局中部横幅
“mbalib.com”的百度权重查询结果

查询百度权重和百度的关键字排名,查询360权重和360的关键字排名

做饭小游戏,做饭小游戏大全,4399做饭小游戏全集,4399小游戏

4399做饭小游戏大全收录国内外做饭小游戏、料理小游戏、烹饪小游戏、做菜小游戏、最新做饭小游戏。好玩就拉朋友们一起来玩吧!

中国科技网首页

中国科技网是以科技新闻和信息传播为主业的综合性网络媒体。2010年,中央外宣办核准网站名称为“中国科技网”,并视同国家重点新闻网站进行管理,日均网页访问量达百万级别。

e律师

e律师系统采用互联网B/S架构,结合律师行业的业务特点,操作简便、界面美观、权限规划严谨、功能创新实用,实现与客户沟通便捷及时、冲突检索全面准确、管理简单方便,高效的提升了律务的工作效率。

2024房贷计算器

2024最新房贷计算器,超过100万人使用地房贷计算器,更新快又好用地房贷计算器,024年7月22日贷款市场报价利率(LPR)为:1年期LPR为3.35%,5年期以上LPR为3.85%。

直排筛

新乡市德泰机械是生产zps直排筛、zps直排振动筛、直排式振动筛、直下式振动筛、超声波直排筛、超声波直排振动筛厂家,产品型号有600直排筛,600型直排筛,600直排振动筛,600型直排振动筛,800直排筛,800型直排筛,800直排振动筛,800型直排振动筛,1000直排筛,1000型直排筛,1000直排振动筛,1000型直排振动筛,1200直排筛,1200型直排筛,1200直排振动筛,1200型直排振动筛,1500直排筛,1500型直排筛,1500直排振动筛,1500型直排振动筛等等

威派控股集团有限公司

威派控股集团有限公司集管道阀门研发,制造,销售服务为一体的专业化企业

西部网事

甘肃龙网-甘肃生活网。是一个集合各种生活知识、常识以及星座生肖运势的实用生活网站。致力于以丰富的优质内容和个性化的推荐机制给用户带去满意的网上冲浪体验。

【搜料亿官网】皮革五金行业一站式物料供求信息对接平台

子公司广州搜料亿网络科技有限公司官网专注箱包皮革五金行业一站式物料供求信息对接平台,皮革行业专用管理软件开发与销售,是国内箱包配料行业专业供求信息对接平台,行业名牌!

锯片

上海昂兹机械设备有限公司是一家专业生产锯片、锯条、带锯条、带锯条磨齿机的厂家。公司一贯秉承保证品质、守住信誉、完善服务的原则,客户提供一站式锯切解决方案,360度售后服务。

鹰潭新闻网

鹰潭日报社官方新闻网站。

压力校验仪

北京【远华天创】科技有限责任公司,成立于2003年;是一家集研、产、销一体的高新技术企业,主要提供全自动压力校验台、全自动/便携式压力校验仪、过程校验仪、温度校验仪、干体炉、活塞式压力计、温度校验系统、热工信号检定装置等计量校准设备和方案,


全局底部横幅