只需1 (只需12个简单的步骤)

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区
EfficientZero的性能接近 DQN(Deep Q-Learning)在 2 亿帧时的性能,但消耗的数据却减少 500 倍。

近日,一项研究在学术界引起了广泛的关注和热议。有消息称,Deep Mind和Google已经在内部关门开会讨论了。粉丝众多的科技向youtube博主Yannic kicher甚至专门做了半个小时的视频来讲解这篇论文。学者们更是用“completely game- changing”、“major development in RL”、“this is impressive”来形它。其团队老师本人也在推特上表示: 在使用相同数据的情况下,这是RL智能体第一次直接从像素中获得了超越人类的性能!这会让通用强化学习更接近真实世界的场景,比如机器人的采样效率会是关注重点。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

现在,就让我们隆重的介绍下本文的主角—— EfficientZero

EfficientZero算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控Atari游戏》( Mastering Atari Games with Limited>EfficientZero的性能接近DQN(Deep Q-Learning)在 2 亿帧时的性能,但消耗的数据却减少了500 倍! 它能够在贴近现实复杂情况的Atari(雅达利)游戏中,从零训练并只需两个小时,就可达到同等条件下人类平均水平的190.4%,或116.0%的中值性能。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

样本效率一直是强化学习中最“令人头疼”的挑战,重要的方法需要数百万(甚至数十亿)环境步骤来训练。一种从MuZero模型改进而来的高效视觉RL算法—— EfficientZero,该模型从零开始训练,最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。

MuZero是通过将基于树的搜索与经过学习的模型相结合,可以在一系列具有挑战性和视觉复杂的领域中,无需了解基本的动态变化即可实现出色性能。AI科技评论在以往的文章中对MuZero有过报道: DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步 。那为什么会选择Atari游戏呢?Atari 游戏场景繁多,规则各异,一定程度上贴合现实复杂环境,因此长期被当作验证强化学习算法在多因素环境下的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

如图所示,EfficientZero在人类平均标准得分中位数上分别比之前的SoTA性能出色170%和180%。是第一个在Atari 100k基准上优于人类平均性能的算法。

强化学习在挑战性的问题上取得了巨大的成功。如2015年DeepMind研发的DQN网络 、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。像AlphaZero从国际象棋小白到顶尖高手需要完成2100万场比赛,一个职业棋手每天大约只能完成5场比赛,这意味着人类棋手要11500年才能拥有相同的经验值。

在模拟和游戏中应用RL算法,样本复杂性不成阻碍。当涉及到现实生活中的问题时,例如机器人操作、医疗保健和广告推荐系统, 在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙。

过去几年,我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中,鱼和熊掌不可兼的情况比比皆是,MuZero和 Dreamer V2展示了超越人类的表现,但样本效率不高;SimPLe等其他方法非常有效,但性能较差。最近,在数据高效机制中,中数据增强和自监督方法应用无模型方法取得一定成功。然而,却依然达不到人类预期的水准。

为了提高样本效率并保持优越的性能,自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上,对这三点进行了改进:“利用时序预测一致性 (temporal contrastive consistency),减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”

在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中,EfficientZero实现了最先进的性能,优于直接从真实状态中学习的模型state SAC,这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

高阳 :博士,清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校,本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区

原创文章,未经授权禁止转载。详情见 转载须知 。

只需1/数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL,引爆AI社区


本文地址: https://www.gpxz.com/article/7f785a811db59f0322b8.html
全局中部横幅
全局中部横幅
GitLab

极狐GitLab中文官网,提供企业级源代码管理,GitLabCI/CD,CodeReview,研发效能管理,GitLabDevSecOps等产品及服务。GitLab一站式DevOps平台,加速和优化软件开发全生命周期。现在下载安装GitLab,成为精英效能组织。

湖南日报

湖南日报报业集团多媒体数字报,湖南日报电子版,三湘都市报电子版,文萃报电子版,大众卫生报电子版,家庭导报电子版,科教新报电子版

长沙强龙信息科技有限公司

长沙强龙信息科技有限公司,湖南华为服务器,湖南联想服务器,湖南戴尔服务器,长沙联想服务器,长沙华为超聚变服务器,长沙戴尔服务器,长沙华三服务器,湖南服务器代理商,长沙服务器经销商,湖南服务器厂家联系:0731-82806685,13142287766,18974845859

PCB人才网

PCB人才网(https://www.pcbjob.com)大品牌的招聘网站,规模大信息真实的PCB专业招聘网站,最新招聘信息,PCB求职,PCB招聘,找工作,上PCB人才网!

手机游戏下载

12365手游网为您提供热门手机游戏下载,绿色安全的安卓手机软件下载,每天持续更新手机新游戏、应用资源安装包,当下新出人气游戏软件会以人气手游排行榜榜单数据形式推荐给大家,找好游玩新游看攻略就来www.12365.sd.cn。

北京北泰众恒科技有限公司

北京北泰众恒科技有限公司是一家致力于固体激光器及其应用技术的高新技术企业。本公司是一家集研发、生产和销售于一体的实体型企业。经过多年的锤炼和市场洗礼,已经拥有了一支光机电配套、经验丰富、与市场结合紧密、反应迅速的核心团队。该团队在固体激光器技术、弱信号处理技术、激光测距技术等方面积累了丰富的工程经验。

大连软件外包公司

在软件定制开发行业,我们是你不错的选择,如果你正在找大连软件外包公司,不要犹豫立刻跟我们联系

正邦品牌咨询与设计,27年

正邦是以下logo设计者:央视,品牌强国工程,中国移动,联通5G,中国电信,中车,广汽集团,光大集团,中国旅游集团,阿里健康,美团配送,百合网,链家,长城汽车,长安汽车,立白.

亳州幼儿师范学校

亳州幼师始建于1951年,原名亳县师范学校,1988年3月经安徽省教委批准改为亳州幼儿师范学校,是安徽省独立建制的3所中等幼儿师范学校之一。我校还是中国学前教育教师发展专业委员会理事单位、安徽省学前教育专业同盟常务理事单位,安徽省省级示范中等职业学校,亳州市幼儿教师培训基地

铭锋南越咖啡

探索铭锋南越咖啡,感受源自越南的独特咖啡风情。精选原料,传统工艺,为您带来纯正越南咖啡的浓郁口感与醇厚香气。

万花筒

汕头市先航信息科技有限公司

全局底部横幅