只需1 (只需12个简单的步骤)

文章编号：46403 资讯动态 2024-12-10 高阳 EfficientZero RL模型清华叉院助理教授

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

EfficientZero的性能接近 DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少 500 倍。

近日，一项研究在学术界引起了广泛的关注和热议。有消息称，Deep Mind和Google已经在内部关门开会讨论了。粉丝众多的科技向youtube博主Yannic kicher甚至专门做了半个小时的视频来讲解这篇论文。学者们更是用“completely game- changing”、“major development in RL”、“this is impressive”来形它。其团队老师本人也在推特上表示：在使用相同数据的情况下，这是RL智能体第一次直接从像素中获得了超越人类的性能！这会让通用强化学习更接近真实世界的场景，比如机器人的采样效率会是关注重点。

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

现在，就让我们隆重的介绍下本文的主角—— EfficientZero 。

EfficientZero算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控Atari游戏》（ Mastering Atari Games with Limited>EfficientZero的性能接近DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少了500 倍！它能够在贴近现实复杂情况的Atari（雅达利）游戏中，从零训练并只需两个小时，就可达到同等条件下人类平均水平的190.4%，或116.0%的中值性能。

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

样本效率一直是强化学习中最“令人头疼”的挑战，重要的方法需要数百万(甚至数十亿)环境步骤来训练。一种从MuZero 模型改进而来的高效视觉RL算法—— EfficientZero，该模型从零开始训练，最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。

MuZero是通过将基于树的搜索与经过学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中，无需了解基本的动态变化即可实现出色性能。AI科技评论在以往的文章中对MuZero有过报道： DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步。那为什么会选择Atari游戏呢？Atari 游戏场景繁多，规则各异，一定程度上贴合现实复杂环境，因此长期被当作验证强化学习算法在多因素环境下的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

如图所示，EfficientZero在人类平均标准得分中位数上分别比之前的SoTA性能出色170%和180%。是第一个在Atari 100k基准上优于人类平均性能的算法。

强化学习在挑战性的问题上取得了巨大的成功。如2015年DeepMind研发的DQN网络、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。像AlphaZero从国际象棋小白到顶尖高手需要完成2100万场比赛，一个职业棋手每天大约只能完成5场比赛，这意味着人类棋手要11500年才能拥有相同的经验值。

在模拟和游戏中应用RL算法，样本复杂性不成阻碍。当涉及到现实生活中的问题时，例如机器人操作、医疗保健和广告推荐系统，在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙。

过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中，鱼和熊掌不可兼的情况比比皆是，MuZero和 Dreamer V2展示了超越人类的表现，但样本效率不高；SimPLe等其他方法非常有效，但性能较差。最近，在数据高效机制中，中数据增强和自监督方法应用无模型方法取得一定成功。然而，却依然达不到人类预期的水准。

为了提高样本效率并保持优越的性能，自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上，对这三点进行了改进：“利用时序预测一致性 (temporal contrastive consistency)，减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”

在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中，EfficientZero实现了最先进的性能，优于直接从真实状态中学习的模型state SAC，这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。

高阳：博士，清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校，本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

原创文章，未经授权禁止转载。详情见转载须知。

只需1/数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL，引爆AI社区

本文地址： https://www.gpxz.com/article/7f785a811db59f0322b8.html

上一篇：中非共和国采用比特币作为法定货币使人困惑

下一篇：35万的车一点都不贵；雷军称小米汽车50万以内

GitLab

极狐GitLab中文官网，提供企业级源代码管理，GitLabCI/CD，CodeReview，研发效能管理，GitLabDevSecOps等产品及服务。GitLab一站式DevOps平台，加速和优化软件开发全生命周期。现在下载安装GitLab，成为精英效能组织。

手机软件 2026-01-21 11:56:13

湖南日报

湖南日报报业集团多媒体数字报,湖南日报电子版,三湘都市报电子版,文萃报电子版,大众卫生报电子版,家庭导报电子版,科教新报电子版

新闻资讯 2026-01-21 12:42:52

长沙强龙信息科技有限公司

长沙强龙信息科技有限公司,湖南华为服务器,湖南联想服务器,湖南戴尔服务器,长沙联想服务器,长沙华为超聚变服务器,长沙戴尔服务器,长沙华三服务器,湖南服务器代理商,长沙服务器经销商,湖南服务器厂家联系:0731-82806685,13142287766,18974845859

商业服务 2026-01-24 21:24:22

PCB人才网

PCB人才网（https://www.pcbjob.com）大品牌的招聘网站，规模大信息真实的PCB专业招聘网站，最新招聘信息，PCB求职,PCB招聘,找工作，上PCB人才网!

网络应用 2026-01-24 22:43:18

手机游戏下载

12365手游网为您提供热门手机游戏下载，绿色安全的安卓手机软件下载，每天持续更新手机新游戏、应用资源安装包，当下新出人气游戏软件会以人气手游排行榜榜单数据形式推荐给大家，找好游玩新游看攻略就来www.12365.sd.cn。

游戏网游 2026-01-25 21:57:53

北京北泰众恒科技有限公司

北京北泰众恒科技有限公司是一家致力于固体激光器及其应用技术的高新技术企业。本公司是一家集研发、生产和销售于一体的实体型企业。经过多年的锤炼和市场洗礼，已经拥有了一支光机电配套、经验丰富、与市场结合紧密、反应迅速的核心团队。该团队在固体激光器技术、弱信号处理技术、激光测距技术等方面积累了丰富的工程经验。

网络应用 2026-01-28 15:56:00

北京久杰净化工程技术有限公司

电影视频 2026-01-28 19:24:16

大连软件外包公司

在软件定制开发行业，我们是你不错的选择，如果你正在找大连软件外包公司，不要犹豫立刻跟我们联系

网络应用 2026-01-29 13:59:50

正邦品牌咨询与设计,27年

正邦是以下logo设计者:央视,品牌强国工程,中国移动,联通5G,中国电信,中车,广汽集团,光大集团,中国旅游集团,阿里健康,美团配送,百合网,链家,长城汽车,长安汽车,立白.

设计美化 2026-01-29 16:05:38

亳州幼儿师范学校

亳州幼师始建于1951年，原名亳县师范学校，1988年3月经安徽省教委批准改为亳州幼儿师范学校，是安徽省独立建制的3所中等幼儿师范学校之一。我校还是中国学前教育教师发展专业委员会理事单位、安徽省学前教育专业同盟常务理事单位,安徽省省级示范中等职业学校，亳州市幼儿教师培训基地

学校大学 2025-02-16 14:43:48

铭锋南越咖啡

探索铭锋南越咖啡，感受源自越南的独特咖啡风情。精选原料，传统工艺，为您带来纯正越南咖啡的浓郁口感与醇厚香气。

电影视频 2026-01-31 13:31:31

万花筒

汕头市先航信息科技有限公司

行业信息 2026-02-05 00:06:12

卢松松博客成为腾讯社交广告合作服务商 (卢松松的博客)

继卢松松博客成为百度云加速合作伙伴之后，经过努力与反复的审查，卢松松博客又通过了腾讯的审核，正式成为腾讯社交广告合作服务商，这也标志着卢松松博客进一步被大公司认可，与BTA的合作的越来越多，业务模式越来越多元化，腾讯社交广告广告位资源包括，QQ空间、QQ客户端、微信朋友圈、微信公众号、腾讯网、腾讯联盟广告、浏览器、应用宝、QQ音乐等，...。

2025-02-01 22:30:44

开店优势多吗大卫美术教育加盟要多少钱 (开店优势多吗知乎)

近两年，美术教育走近了人们的生活，成为了大家争相加盟的特色教育项目，其中比较有名气的当属大卫美术教育，该品牌多年来，一直努力的做市场运营，因此也取得了相当不错的成绩，大卫美术教育不仅拥有广泛的生源，还得到了很多加盟商的认可，让它在庞大的教育市场中颇受关注，而大卫美术教育加盟要多少钱，开店优势多吗，也成为了大家都想要了解的加盟前提，大卫...。

2024-12-21 22:33:57

无法阻止的赔本买卖台积电创始人批在美建厂计划徒劳无功 (无法阻止的灾难)

在本周二美国布鲁金斯学会主持的播客中，台积电创始人张忠谋获邀参加，在演讲中他回顾了自己创立台积电，并带领其变成如今全球最先进的芯片代工厂之一的创业历程，在演讲中，他提到了美国的，芯片法案，并表达了对这一计划的悲观前景，虽然台积电已经在美国奥勒冈州拥有了一座成功运营了25年的工厂，并且在俄亥俄州的工厂也即将揭幕，但这位台积电创始人仍然...。

2024-12-09 13:57:58

4k激光厅和杜比全景声厅区别 (4k激光厅和3d区别)

发表在专业问答2023，10，713，58展示机型信息，品牌型号，当贝X5Ultra系统版本，当贝OS4.04k激光厅和杜比全景声厅区别主要有两种，分别是投影技术和体验不同，投影技术方面，4k激光厅采用激光技术，杜比全景声厅采用杜比全景声技术；使用体验方面，4k激光厅追求画质，杜比全景声厅追求音质，4k激光厅和杜比全景声厅区别4k激光...。

2024-11-29 01:00:01

当贝Smart1真实使用体验分享当贝Smart1值得买吗 (当贝Smart 1)

发表在当贝投影仪2024，10，3115，47当贝Smart1是一款便携式投影仪，在千元价位里面也属于佼佼者，具体当贝Smart1的实测体验如何呢，下面就分享当贝Smart1真实使用体验，看看当贝Smart1值得买吗，当贝Smart1真实使用体验分享1.这投影仪太棒了！画面清晰无比，每一个细节都栩栩如生，色彩鲜艳又真实，就像把影院搬回...。

2024-11-28 15:56:12

罗马仕移动电源 (罗马仕移动电源拆解)

我早去年10月份购置123的充电在往年五月份产生疑问客服不时推搡不处置疑问六月份齐全不能充提出换货你找她们她们就会回复你不然间接不处置在当天我说我须要退款或许更新新的款差价我补不行我重大提出疑心给我换的相反的款能否全新会不会也是他人退回去其次态度十分顽劣踢皮球甚至已读不回我不知道对顾客处于......。

2024-07-17 12:17:02

电脑杀毒软件排行榜电脑杀毒软件排行榜第一收费下载 (电脑杀毒软件哪个好用又干净)

电脑杀毒软件排行榜，第一名，360杀毒软件，第二名，金山毒霸，第三名，卡巴斯基，第四名，Norton诺顿，第五名，RISING瑞星，第六名，Avira，第七名，McAfee迈克菲，第八名，ESETNOD32，第九名，Microsoft微软，第十名，腾讯管家，第一名，360杀毒软件360杀毒是奇虎360出品的一款收费的云安保杀毒软件，3...。

2024-07-13 19:03:46

730li宝马多少钱 (730li宝马)

1华晨宝马730li售价万12这辆宝马730Li也开过2500KM，67万买上去还是无利可图的3毕竟万众注目标华晨宝马5系在这个价位2这款7系后排宽阔座椅驳回真皮包裹，手感十分细腻4那家伙说宝马的大，宝马7系只管是大型奢侈车，但底盘雷同比拟低，坐姿十分舒适，比飞驰S级和奥迪A8L都略大一些，它的后轮和复杂的后悬架结构占据了较大的空间，...。

2024-07-07 21:29:53

一汽公众汽车召回查问 (一汽微信公众号)

一汽公众汽车是一家中外合资企业，是公众汽车与中国第一汽车公司协作的结果，成立于1984年，它消费并开售各种公众品牌的汽车，如宝来、捷达、速腾、朗逸等，但是，在汽车消费环节中，一些疑问或许会产生，这就须要启动召回解决，一汽公众召回查问的目标是在车辆产生质量疑问时，尽快采取有效措施，并确保车主不会遭就任何损伤，假设一辆汽车须要召回，一汽公...。

2024-07-07 20:17:02

qq空间电脑版登录入口 (qq空间电脑版登陆入口)

QQ空间是腾讯公司推出的一款社交平台，领有泛滥用户，要经常使用QQ空间，用户可以经过电脑版登录入口启动登录，电脑版登录入口的位置理论在QQ软件的左下角，也可以在阅读器中输入，进入QQ空间主页，而后点击右上角的，登录，按钮进入登录页面，在登录页面，用户须要输入自己的QQ号码和明码，而后点击，登录，按钮即可进入自己的QQ空间，假设用户遗...。

2024-07-05 12:36:12

SpyHunter下载-SpyHunter(间谍软件检测工具)v5.15.11.315中文免费版

SpyHunter是一款自适应实时间谍软件检测和清除工具。它能够提供强大的保护，防止最新的间谍软件威胁，包括特洛伊木马、rootkit和恶意软件。

2023-11-07 20:47:27

高色网页复制大师下载V3.6-本软件用于您在上网时自动帮助将您

高色网页复制大师,本软件用于您在上网时自动帮助将您复制的网页内容包括文字和图片）保存到硬盘中，十分方便！,您可以免费下载。

2023-08-11 13:13:35

文章推荐

快讯爱美净获空气净化行业标准主要起草编制单位 (快讯爱美净获客户)

近日，作为空净行业的领军品牌，爱美净品牌运营中心收到一封来自建材行业环境友好与有益健康建筑材料标准化委员会，以下简称标委会，的函件，函件内容表示，根据工业和信息化部，关于印发2017年第二批行业标准制修订计划的通知，[工信厅科，2017，70号]，建材行业标准，室内空气净化功能涂覆材料净化性能，修订，计划编号，2017，0413T...。

2024-12-21 22:09:05

创业加盟

的公司 Her Facebook的人工智能路最有可能开发出 (岩山科技是做什么的公司)

扎克伯格经常用，代码胜于雄辩，警示员工，2013年，，永远开放，的标语挂在Facebook纽约办公室，把这句话奉为信条的YannLeCun正领导着Facebook人工智能团队披荆斩棘，迎接人工智能的浪潮，现在，人工智能已成为Facebook的重要组成部分，相关技术相继被用在聊天机器人、人脸识别、个性化推荐等方面，与此同时，人工智能的相...。

2024-12-09 16:17:11

资讯动态

多城开跑谁是自动驾驶硬核之都

2014年12月，，十三五，新能源汽车战略规划，发布，内容首次出现，车辆智能化和交通网联化，自动驾驶的火星自此吹向了夜色中的荒原，燎原的野火在中国各处蔓延，接下来的两年，造车新势力接连诞生，自动驾驶科技公司密集冒出，随着自动驾驶汽车接连落地，产业集聚效应也愈发明显，一场原本属于自动驾驶汽车企业之间的竞赛，无形中演化为城市之间的较量...。

2024-12-03 22:44:47

资讯动态

从小宠着她怎么办女儿变得一身公主病为了不让女儿吃苦 (从小宠着她怎么回复)

只能狠下心让她经历挫折，如果她真的一身公主病，那应该很容易，，最重要的是大人不再去真的收拾烂摊子，可以表面上积极处理，表现十分困难，愁眉苦脸，最后让她去经受挫折，受挫后安慰，纯语言安慰，如果她不接受，那就看你们能不能受得了了，如果还小，就直接培养独立能力，最好一个唱红脸一个唱白脸，比较好适应，但帮她做的事都不能做，，如果比较大，就只...。

2024-11-29 18:58:36

资讯动态

陈栋网络人物 (陈栋个人介绍)

陈栋，1981年12月出生，中共预备党员，大学学历，上海市公安局静安分局交警支队五中队民警，他自参加公安工作以来，一直致力于交通管理工作，陈栋工作虽然时间不长，但成绩显著，执法执勤水平始终在中队名列前茅，陈栋在日常工作中充满热情，热爱岗位，责任心强，对待工作认真执着，他深入研究交通管理业务，总结出一套，陈栋工作法，，有效缓解了早晚高峰...。

2024-11-29 16:37:11

资讯动态

只需1 (只需12个简单的步骤)

相关文章

文章推荐