挑战高考数学完胜!商汤日日新多模态大模型权威评测第一 (挑战高考数学试卷)

文章编号:52257 资讯动态 2025-02-01 商汤 OpenCompass 日日新

刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。 挑战高考数学完胜!商汤日日新多模态大模型权威评测第一 OpenCompass多模态大模型评测排名

商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4分的最高分,展现了领先的“数理”能力。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。

OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。

小试牛刀,商汤多模态进阶

作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。

2023年4月,商汤率先发布了行业领先的多模态大模型;

2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME benchmark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

2024年7月,商汤发布国内首个交互体验上对标GPT-4o的大模型——日日新5o,实现无延时的实时流式交互。

全新阶段,跨模态深度融合

今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新SenseNova多模态大模型。

跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、图像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和交互。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。

跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。

评测中,当我们从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。

提问:这道选择题要怎么做?

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果,并给出详细解题过程:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

提问:这道题要怎么解?请告诉我详细的思路

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新再次输出正确结果。

数学回答满分,再来看看物理。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

物理题也答对啦~

此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。

评测中,当难度提升,让我们看看结果如何。

提问:使用下表中的数据,计算2011年每股FCFE的金额。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出推理结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新成功输出推理结果,效果令人惊叹。

随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。

数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/85ccbf9c0d767927443b.html
全局中部横幅
全局中部横幅
域名知识

域名知识是一家专业的域名注册和管理服务提供商,我们提供全面的域名解决方案,助您成功上线。通过我们的服务,您可以快速注册和管理您的域名,保护您的品牌,并获得可靠的域名解析和转发服务。无论您是个人还是企业,我们都致力于为您提供高效、可靠和安全的域名服务。立即选择yumingzichan.cn,享受一站式域名服务!

2026周公解梦大全查询免费

《周公解梦》是靠人的梦来卜吉凶的一本于民间流传的解梦书籍,通过互联网为广大网友提供在线2026周公解梦大全查询,将你梦见的告知我们,我们将为你解答梦境的真正含义,真正的原版周公解梦原版免费-周公在线。

首页

苏交科集团股份有限公司从事公路、市政、水工、铁路、城市轨道、环境、航空和建筑等行业的规划咨询、勘察设计、科研检测、安全评价、节能环保、监理、工程总承包、PPP投融资、智慧城市及互联网+的信息化业务

O型圈

益弘橡胶是一家专注加工定制生产密封圈,O型圈,橡胶圈,防水圈,氟橡胶密封圈的硅橡胶制品厂家,专注定制生产橡胶制品二十年;欢迎新老客户来图、来定制生产!微信号:Honesz,电话:18123659015。

趣玩攻略网

  趣玩攻略网专注于为玩家提供最新、最全的游戏攻略和资讯。我们覆盖各类热门游戏,从入门教程到高级技巧,应有尽有。无论你是新手还是老玩家,趣玩攻略网都能帮助你快速提升游戏水平,轻松享受游戏乐趣。

郑州共赢科技

郑州共赢科技有限公司旗下产品有:网站建设,建网站,小程序制作,高端网站建设,网站优化,400电话,网站推广,软件开发等业务,公司专注于为企业提供专业的技术支持和营销服务,帮助企业获得更强的市场竞争力。

GMP455认证

GMP455认证找【临智略咨询】25年专注三品一械企业辅导实战经验,专业协助企业处理化妆品GMP认证,美国FDA认证,食品GMP认证,化妆品FDA认证,食品FDA认证,医疗器械GMP认证,医疗器械FDA认证,GMP认证,FDA认证等专业问题,欢迎咨询:18898767686梅老师。

上海碳博会

上海国际碳中和科技展览会简称「COExpo上海碳科展」以“中和科技,碳索未来”为主题,以广大的市场需求导向配套同期高端产业论坛交流,促进产业链与创新链深度融合,充分发挥科技创新对绿色低碳转型的关键支撑作用,促进培育绿色低碳产业发展的新动能!

华北科技网

华北科技网以独特视角呈现科技圈内大事小事,内容包括互联网、IT业界、通信、趋势、科技访谈信息等

月饼金属检测机

常州飞斯伦科技有限公司是一家集月饼金属检测机-直落式|管道式金属探测器、水产品|大闸蟹|干货分选机、吨包复检秤研发、设计、建设、运营为一体的综合性高新技术企业,从事工业自动化(DCS、SIS、GDS)、安全管理信息化平台、工业互联网平台、数字孪生打造和机器人巡检系统等业务。

柳苏云个人主页

整天半吊子和不学无术的坏孩子,梦想成为庄稼地里的读书人.....


全局底部横幅