由o1接棒或是LLM研究最重要的发现 GPT未竟的革命

文章编号：36736 资讯动态 2024-11-30 OpenAI 大模型 o1 LLM 人工智能

天下武功唯快不破，但 openAI 不走寻常路，新出的 o1 系列宣告天下：

o1 要花更多的时间思考问题，再做出反应，但在复杂推理层面直接窜了几个档位。

在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 得分为 83%。

好家伙，这数学水平，上一次见面还是小学生，现在直接博士毕业了？

OpenAI 也很得意，表示 o1 已经达到AI能力新高度了，所以直接把计数重置到1，开启新的大模型系列 OpenAI o1。

本次 OpenAI o1系列分为三个型号，最强但还未发布的 o1，o1 的预览版 o1-preview，和性价比最高的轻量版 o1-mini。

之前的 GPT 系列还被诟病更新“挤牙膏”，没想到 OpenAI 一直都是老样子，不鸣则已一鸣惊人，直接给 AI 界来了个大大大地震。

综合网络对于 o1 的报道和评论，我们注意到几个关键信息：

这可能是Scaling Law提出以来，LLM领域最重要的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用，而不是单一曲线；

与强化学习的完美结合，可能为我们指明了通往人工通用智能（AGI）的有效路径（此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会，讨论了强化学习与大模型的结合，感兴趣的朋友点击下方链接进行回看）；

o1 并非 GPT-4o 的升级版本，目前仍然无法解决像黎曼假设这样极其复杂或开放的问题，也没能解决幻觉问题。

OpenAI 对大模型的这次重新构想，无疑将对大模型的未来走向和整个AI领域的格局产生深远影响。

OpenAI的又一里程碑

奥特曼表示，o1 是他们迄今为止功能最强大、最一致的模型系列，只是使用的时候要花更多时间（凡尔赛了）。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

如图所示，o1 在绝大多数重推理任务中显著优于 GPT-4o

正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文，表扬了 o1 的超强性能，并特别指出 o1 是第一个使用强化学习训练的模型，会在回答问题之前进行深入的思考。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini，欢迎大家测试。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

参与研发o1的 Shengjia Zhao 很谦虚地表示，o1 并不是完美的，也不会适合所有事情。不过人们能感受到它潜力无限，并再一次感受到 AGI。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

Jim Fan 认为，o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的发现。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

他还提到了两篇近期发表的关于 Scaling Law 的论文，并指出 OpenAI 早已意识到这一点，并通过 o1 证实了这些发现。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

大模型+强化学习=AGI？

大模型与强化学习的结合是近几年来的热门研究方向之一。

大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合，可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动人工智能发展的重要方向。

o1 大模型的发布，首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说， o1 证明了强化学习才是通往 AGI 道路上的必备要素（RL研究者狂喜） 。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

OpenAI 另一位专注推理的研究员也说，通过强化学习，o1 能够在做出反应进行“思考”，让他们不用再受预训练的瓶颈限制，终于可以做扩展推理计算了。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

强化学习和LLM可以说是非常适配了，只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。

之前就有人说，模仿是 LLM 训练的基础，而模仿其实就是强化学习的问题。

DeepMind 的新论文也有提到，与监督学习相比，强化学习可以更好地利用序列结构、在线数据并进一步提取奖励。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

领导 DeepMind 强化学习研究小组的David Silver，也在前段时间的演讲中强调，“需要重新关注强化学习，才能走出 LLM 低谷。”

局限

不过，一众好评声中，也有人指出了 o1 存在的一些问题。

Andrej Karpathy 在测试后发推特说，o1-mini 还是有大模型的老毛病，问它黎曼假设这类复杂问题就偷懒逃避。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

Gary Marcus 认为 o1 并不是通用人工智能（AGI），甚至离 AGI 还很远。

他尖锐地点出了 o1 的八条问题，从多个方面批评了o1模型的细节披露不足、改进不够全面，认为实际测试与宣传间存在差距，并提醒消费者要慎重。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

Hugging FAce 的 CEO 也表示，AI 并不是在思考，只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种技术系统是人类的错误印象，只是廉价的骗术和营销手段，让人误以为它比实际更聪明。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中，尤其是写作能力方面，GPT-4o 还是更胜一筹。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

并且，o1 的推理依然存在缺陷，在实现质的提升的同时也没能解决LLM的幻觉问题。

著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败，但在 o1 成功的例子，只找到了几个让他满意的案例。他认为从推理来看，o1 并不是 GPT-4o 的升级版。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

他在博客中写道，o1 并不是简单的 GPT-4o 升级版，而是通过在成本和性能方面引入重大权衡，换取了更进一步的推理能力。

很明显， o1 和 GPT-4o 代表大模型的两个不同方向 。OpenAI 也提到，以后会分别研发升级两个模型，这意味着，过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。

实测

那么，o1 的表现到底怎么样呢？

在 Toqan 的排行榜中，我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平，比 SOTA 要高出 20%。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

elvis 做了详细测试，他提到 o1-preview 能够一次性解决很多难以回答的问题，包括很多当前大型语言模型（LLMs）难以处理的数学问题。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

他的完整测试视频已经上传YouTube，可以点击以下链接观看：

OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说，“从根本上说，o1 是一种新的模型模式，能够解决真正困难的问题，从而达到与人类相似的智能水平。”

o1-preview和o1 mini已经带给我们这么多惊喜，不敢想最后发布的o1到底能有多强悍，让我们拭目以待。

原创文章，未经授权禁止转载。详情见转载须知。

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

本文地址： https://www.gpxz.com/article/24039187ef0713a79706.html

上一篇：加速进化获亿元融资；AI清华系人形机器人公司

下一篇：Step阶跃星辰开放平台迎来多项更新上线step

json在线生成实体类

JSON在线压缩转义工具，非常方便、高质、效率，希望可以为您提供帮助。

站长资源 2024-08-16 14:01:46

纪录片频道

腾讯视频致力于打造中国领先的在线视频媒体平台，以丰富的内容、极致的观看体验、便捷的登录方式、多平台无缝应用体验以及快捷分享的产品特性，主要满足用户在线观看视频的需求。

电影视频 2024-07-13 15:46:00

技术雨

网站描述

网站模板 2026-01-21 13:01:08

爱站分类词云

爱站分类词云提供各行业分类网站排名及关键词词库，高频关键词库，行业相关词词库等信息。

网站模板 2026-01-21 14:41:56

猎巴巴

猎巴巴分类信息网为您提供生活分类信息，囊括房屋出租、二手房，二手车交易、跳蚤市场、招聘求职、交友征婚等与生活息息相关的信息，满足您生活的方方面面，欢迎免费发布查看猎巴巴分类信息，生活分类信息。

招聘求职 2026-01-25 00:37:37

北京原茂拆除有限公司

北京原茂拆除有限公司专注于为客户提供周到、安全的建筑拆除服务。我们拥有专业的拆除团队和先进的拆除设备，能够确保拆除过程的安全。我们注重环保，采用先进的清运技术，确保拆除后的场地干净整洁。选择我们，让您的拆除工作更加轻松省心!

安全杀毒 2026-01-25 16:00:22

哈尔滨焦炭厂家

哈尔滨焦炭哪家好？就选哈尔滨兴旺焦炭厂【咨询热线：138-4506-4158】是哈尔滨焦炭厂家中的龙头企业，现主要从事哈尔滨焦炭批发和哈尔滨焦炭零售等项目，其中我公司的哈尔滨焦炭价格也是同行业中经济实惠的，欢迎新老顾客前来洽谈、合作！

管理咨询 2026-01-25 19:56:54

同花顺理财

同花顺旗下一站式基金投资平台，轻松找到最适合您的基金。并为您提供基金净值查询、投资收益计算、基金定投、基金网上交易、基金数据等多种专业、及时、全面的基金服务。

新闻资讯 2026-01-25 21:58:41

兰州体系认证

兰州鑫标管理咨询有限公司致力于整合咨询师和培训师资源，秉承“承担社会责任、提升企业管理水平、推进西北地区咨询行业发展”的宗旨，公司主要业务包括体系认证咨询，综合管理咨询，质量管理体系认证，行业标准化建设咨询等。

下载资源 2026-01-25 23:12:59

行一风水先生

李行一，宁波风水大师，深谙自然之规律，天道之奥妙。融合峦头、玄空风水、理气、纳气为一体，在线提供宁波装修设计风水咨询！

设计美化 2025-02-03 15:27:25

科泰博智能科技有限公司

科泰博智能科技有限公司（简称科泰博），我们致力于为商业用户提供IT网络和安全产品规划、IT基础设施系统集成、数据中心规划建设、应用系统设计开发及实施等“一站式”的信息服务解决方案

网络应用 2025-02-20 18:28:00

桂林会展国际酒店

桂林会展国际酒店坐落于城市核心地段――甲天下广场。酒店前临七星公园，背倚穿山、塔山等知名景区；又因置于桂林会展国际中心左翼之尊位，堪称独享桂林标志性建筑。酒店采用休闲、雅致、时尚的装饰风格，同时巧妙的蕴含了桂林山水风光与人文元素，为您精心打造前所未有的都市到自然的徜徉之感。

会展节日 2026-01-25 14:20:19

这锅谁来背穷逼VIP 虾米音乐mac端代码注释活动送的那种 (这锅谁来背一下)

近日，V2EX论坛上有网友爆料，虾米音乐程序员在代码注释中赫然将虾米音乐搞活动赠送给用户的VIP称之为，穷逼VIP，为与同类型的应用，QQ音乐与网易云音乐等，竞争，虾米音乐经常会推出各种领取VIP的优惠活动，用户领取后享受到的VIP内容和包月付费VIP用户没什么不同，但有时间上的限制，▲虾米音乐客户端被爆程序员写了，穷逼VIP，S...。

2025-01-30 21:08:48

靴子终于落地高通60亿天价罚单带来了啥 (靴子终于落地了是什么意思)

本周一，高通宣布同意向中国发改委支付60.88亿元，约合9.75亿美元，罚款，了结为期14个月的反垄断调查，这一罚款数额，创造了中国反垄断调查的历史之最，同时，高通在一份声明中还声称，高通还将降低在中国的专利使用费率，由于反垄断调查告一段落，高通股价迎来利好，在周一盘后交易时段，高通股价大幅上涨了2.98%，股价显示为69.11美元，...。

2024-12-09 21:34:42

乂学教育

编者按，7月12日，7月14日，2019第四届全球人工智能与机器人峰会，CCF，GAIR2019，于深圳正式召开，峰会由中国计算机学会，CCF，主办，雷锋网、香港中文大学，深圳，承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智...。

2024-12-09 15:27:36

绿盟发布白皮书确保软件供应链安全需理清企业供应链依赖关系 (绿盟首款产品)

消息，7月18日，在，2022中国网络空间新兴技术安全创新论坛，云安全分论坛，召开，绿盟科技正式发布，软件供应链安全技术白皮书，白皮书指出，信息和通信技术，ICT，产业链承担着我国产业从工业化向数字化转型升级的重要任务，软件供应链作为ICT供应链的重要组成部分，是各类关键信息基础设施平稳运行的基础，其关键组件的设计、开发、部署...。

2024-12-03 23:38:51

100 1000 种算法这家公司让 20 AI 万开发者个行业去贵族化 (10010010二进制转化为十进制)

去年，一个，修复100年前的北京影像，的视频让世人惊艳了一把，原本世人只能靠想象和黑白照片构想的晚清真实画面，竟有一日可以通过彩色形式得以呈现，让黑白影像重回彼时的色彩、让我们穿越时光与历史相遇，得益于AI修复技术，其实AI修复并不是新鲜事，不同的是，这项技术背后，已经从专业AI科学家变为身边的，你我他，了，是的，上述作品的作者大谷并...。

2024-12-03 19:31:46

这样的母亲女儿该怎么处理以为自己很了不起她把自己女儿一直当成傻瓜把儿子当成国宝我妈妈性格很强 (这样的母亲女主角是谁)

典型的重男轻女，建议你看轻一些，而且这跟性格没什么关系，估计你妈妈的想法是你是女孩子，将来是要嫁人嫁出去液判的，家里的男孩子是要支撑这个家的，现在你感局厅觉特别不舒服，因为你心理是非常在意这个家的，但随着闹腊改年龄的增长，你就会发现原来你还有好多需要你在意的人和事，女儿嫁出去就是别人家的人了，女儿要奉养公婆，还要奉养娘家人，那父母为什...。

2024-11-29 20:03:30

白羽正新鸡排加盟费 (白羽正新鸡排是哪家公司的)

说到鸡排想必很多人都十分的熟悉了，鸡排是近年来深受人们喜爱的一种美食，特别对于很多的年轻人来说，鸡排不仅美味可口而且具有时尚潮流元素加持，我国有着很多知名的鸡排品牌，以快捷餐饮门店的方式进行市场发展，很多品牌都取得了出色的成绩而且有着规模化的发展建设，白羽正新鸡排作为一个不错的品牌，在鸡排美食的制作上有着很高的水准，在国内的加盟连锁门...。

2024-11-22 23:20:22

新疆大乌苏啤酒代理加盟条件 (新疆大乌苏啤酒几度)

乌苏啤酒从事啤酒类产品销售已有多年之久，公司在发展过程中不断推陈出新，将种种新品推向市场持续巩固品牌竞争力，为品牌长远发展奠定下坚实基础，如今乌苏啤酒已在多地建立起网点，影响力着实不容小觑，而公司业绩也呈现出逐年递增的趋势，那么从开店角度来看乌苏啤酒加盟条件有哪些，下文将给出清晰解答，给想开店的人士提供必要的主张，代理乌苏啤酒的创业者...。

2024-11-22 20:58:13

苹果ios15能否能下低版本的cad引见 (苹果ios13更新包下载)

可以装置的，详细的装置方法为1关上网络，搜查autocad官方，并点击关上官方2在关上的官方界面中输入人mac3找到mac版本的cad，并点击进入4在跳转的界面中，点击立刻下载选项5下载实现后，关上装置包6，ios能下cad破解版可以装，不过重要用于看图，只要便捷的编辑性能，不只要国外的，国际的也有，假设是浩辰的cad，运行商店里搜一...。

2024-07-10 22:35:35

基辅最大儿童医院被炸俄乌互批！ (基辅有多少人)

全球时报驻俄罗斯特派记者肖新新，乌克兰总统泽连斯基9日称，截至当日上午10时许，俄军8日对乌多地的导弹袭击已形成38人死亡，其中包含4名儿童，另有190人受伤，据乌克兰国度通信社9日报道，目前接济上班仍在继续，遭袭的基辅市，奥赫玛季特，国度儿童医院一切患者均已被转移至其余医疗机构，另据乌国内文传电讯社报道称，这或是俄乌抵触迸发以来形...。

2024-07-10 17:03:56

二手开掘机买卖合同电子版 (二手开掘机买卖合法吗)

甲方，卖方，乙方，买方，甲方欲将所属，卡特320d型，开掘机转让于乙方，，开掘机型号，卡特320d型，发起机品牌，CAT0215，发起机型号，3067，5E2T，排气量TR，为此经甲、乙双方协商，达成以下协议内容，第一条，开掘机品质鉴定该车于，年，月购进，原价值为贰佰陆拾捌万元，凭购入发票现场核查为买卖挖的掘机，因双方买卖车...。

2024-07-06 14:40:01

变态版仙侠手游,变态仙侠手游上线送充值卡

仙侠类手游有哪些？1.鬼故事手游。仙侠手游推荐很多玩家对修仙情有独钟手游、仙侠手游排名仙侠手游排行榜:轩辕剑龙舞云山、鬼女1、Ask、青云，首先是某新闻的夏衔手游玩家数量最多，第二个是易的夏衔手游用户基数大，回头率高，第三个是某公馆的夏衔手游是最还原最良心的。1、龙之契约(GM工具刷充是。一般来说，手游带括号自有好处。玩龙(GM工具刷)契约从林峰手游下载。进入游戏后，点击左侧专属工具栏，里面有游戏的详细攻略，还有礼包和新人抵扣，可以领取，充值更优惠，全平台互通。没用过林峰手游APP(下载地址:14294.

2023-10-11 01:41:52

文章推荐

适合跑步打卡的软件有什么 2022运动跑步打卡软件哪个好用 (适合跑步打卡的app)

在跑步的过程中，为用户提供打开功能的APP有哪些，今天小编将针对2022运动跑步打卡软件哪个好用的内容，详细的为大家带来十款高质量的同类型应用，在这些能够实现跑步打卡的软件中，趣味签到功能将帮助用户养成运动的习惯，一款不仅能够帮助用户进行运动训练的app，有趣的运动打卡功能也是一大特色，能够让用户养成一个良好的生活习惯，更多简单实用的...。

2025-02-11 19:58:22

资讯动态

高人气mmo游戏推荐必玩的mmo游戏是什么2024 (高人气动漫男角色)

随着技术的不断进步，MMO游戏已经从简单的多人联机模式演变为一个包含复杂社交网络和深度角色扮演的庞大体系，今天就带来必玩的mmo游戏是什么合集2024，在这些虚拟的领域里，玩家可以跨越现实世界的界限，与来自五湖四海的人们共同创造和体验一个又一个传奇故事，1、，少年仙界传，封神神话背景下的回合制手游，玩家可以体验到与众不同的神宠系统，无...。

2025-02-11 19:26:06

资讯动态

1次突围京东服饰的第N

买服装，上京东，历经数年的沉淀，一场，主动，的服饰战役再度拉开帷幕，自8月底起，京东服饰的广告便悄然席卷了众多写字楼的电梯广告屏以及手机开屏界面，11月15日，京东发布三季度财报，同时罕见提到服装品类增长，实现同比双位数的增长，京东在财报中称，三季度，京东宣布全面布局服饰品类，致力于将京东服饰打造成潮流尖货集散地，建立，买服装，上...。

2025-02-01 14:23:40

资讯动态

有意思的国内外著名互联网企业的名字文化 (有意思的国内法律规则条款)

前不久，马云在2018阿里巴巴校友见面会上详细解读了阿里巴巴、天猫、平头哥等名字的由来，不得不说，互联网公司的名字文化真的十分有意思，在这里小编搜刮了国内外著名互联网企业的取名来历，让大家一观，阿里巴巴阿里巴巴就是芝麻开门的意思，表示为全世界所有的小企业openSesame，让天下没有难做的生意，阿里巴巴这个名字是马云在美国一家餐厅吃...。

2025-01-30 21:21:18

网络百科

小熊妈妈小儿推拿怎么加盟 (小熊妈妈小儿推拿加盟)

孩子的身体健康是每个家长重视的问题，很多父母对于传统的婴童养生服务十分的青睐，为了就是孩子身体更加的健康，现在比较受欢迎的方式就是小儿推拿，专业的中医理疗养护，可以给孩子带去健康，小熊妈妈小儿推拿是一家受欢迎的品牌，凭借着专业的技术，还有优惠的价格，提升门店的生意，现在创业者也看到商机，产生加盟想法，那么，小熊妈妈小儿推拿怎么加盟，小...。

2025-01-16 02:26:28

创业加盟

由o1接棒 或是LLM研究最重要的发现 GPT未竟的革命

OpenAI的又一里程碑

大模型+强化学习=AGI？

局限

实测

相关文章

文章推荐

由o1接棒或是LLM研究最重要的发现 GPT未竟的革命