DeepMind新算法MuZero作者解读 终极版AlphaGo (deepmind中文意思)

文章编号:36877 资讯动态 2024-11-30 强化学习 MuZero AlphaGo

译者:AI研习社( 季一帆 )

双语原文链接: MuZero Intuition


为庆祝Muzero论文在上的发表,我特意写了这篇文章对MuZero进行详细介绍,希望本人能让你对该算法有一个直观的了解。更多详细信息请阅读 原文 。

MuZero是令人振奋的一大步,该算法摆脱了对游戏规则或环境动力学的知识依赖,可以自行学习环境模型并进行规划。即使如此,MuZero仍能够实现AlphaZero的全部功能——这显示出其在许多实际问题的应用可能性!

所有一切不过是统计

MuZero是一种机器学习,因此自然要先了解它是如何使用神经网络的。简单来说,该算法使用了AlphaGo和AlphaZero的策略网络和值网络:

终极版AlphaGo,DeepMind新算法MuZero作者解读

策略和值的直观含义如下:

这两个网络任何一个都非常强大:只根据策略网络,能够轻易预测每一步的动作,最终得到良好结果;只依赖值网络,始终选择值最高的动作。但是,将这两个估计结合起来可以得到更好的结果。

取胜之路

与AlphaGo和AlphaZero相似,MuZero也使用蒙特卡洛树搜索方法(MCTS)汇总神经网络预测并选择适合当前环境的动作。

MCTS是一种迭代的,最佳优先的树搜索过程。最佳优先意味着搜索树的扩展依赖于搜索树的值估计。与经典方法(如广度优先或深度优先)相比,最佳优先搜索利用启发式估计(如神经网络),这使其在很大的搜索空间中也可以找到有效的解决方案。

MCTS具有三个主要阶段:模拟,扩展和反向传播。通过重复执行这些阶段,MCTS根据节点可能的动作序列逐步构建搜索树。在该树中,每个节点表示未来状态,而节点间的边缘表示从一个状态到下一个状态的动作。

在深入研究之前,首先对该搜索树及逆行介绍,包括MuZero做出的神经网络预测:

终极版AlphaGo,DeepMind新算法MuZero作者解读

圆圈表示树节点,对应环境状态;线表示从一个状态到下一个状态的动作;根节点为当前环境状态,即围棋面板状态。后续章节我们会详细介绍预测和动力学函数。

终极版AlphaGo,DeepMind新算法MuZero作者解读

其中c是比例因子,随着值估计准确性的增加,减少先验的影响。

每选择一个动作,我们都会增加其相关的访问计数n(s,a),以用于UCB比例因子c以及之后的动作选择。

模拟沿着树向下进行,直到尚未扩展的叶子。此时,应用神经网络评估节点,并将评估结果(优先级和值估计)存储在节点中。

:一旦节点达到估计量值后,将其标记为“扩展”,意味着可以将子级添加到节点,以便进行更深入的搜索。在MuZero中,扩展阈值为1,即每个节点在首次评估后都会立即扩展。在进行更深入的搜索之前,较高的扩展阈值可用于收集更可靠的统计信息。

:最后,将神经网络的值估计传播回搜索树,每个节点都在其下保存所有值估计的连续均值,这使得UCB公式可以随着时间的推移做出越来越准确的决策,从而确保MCTS收敛到最优动作。

中间奖励

细心的读者可能已经注意到,上图还包括r的预测。某一情况(如棋盘游戏)在完全结束后提供反馈(获胜/失败结果),这样可以通过值估计进行建模。但在另外一些情况下,会存在频繁的反馈,即每次从一种状态转换到另一种状态后,都会得到回报r。

只需对UCB公式进行简单修改,就可以通过神经网络预测直接对奖励进行建模,并将其用于搜索。

终极版AlphaGo,DeepMind新算法MuZero作者解读

其中,r(s,a)是指在状态s时执行动作a后观察到的奖励,而折扣因子γ是指对未来奖励的关注程度。

由于总体奖励可以时任意量级的,因此在将其与先验奖励组合之前,我们将奖励/值估计归一化为区间[0,1]:

终极版AlphaGo,DeepMind新算法MuZero作者解读

其中,q_min和q_max分别是整个搜索树中观察到的最小和最大r(s,a)+γ⋅v(s')估计。

重复执行以下过程可实现上述MCTS:

终极版AlphaGo,DeepMind新算法MuZero作者解读

动作的选择可以是贪心的(选择访问次数最多的动作),也可以是探索性的:通过一定的温度t控制探索程度,并对与访问次数n(s,a)成比例的动作a进行采样:

终极版AlphaGo,DeepMind新算法MuZero作者解读

当t = 0时,等效贪婪采样;当t = inf时,等效均匀采样。

训练

现在,我们已经学会了运行MCTS来选择动作,并与环境互动生成过程,接下来就可以训练MuZero模型了。

首先,从数据集中采样一条轨迹和一个位置,然后根据该轨迹运行MuZero模型:

终极版AlphaGo,DeepMind新算法MuZero作者解读

可以看到,MuZero由以下三部分组成:

根据轨迹选择用于网络输入的观测值和动作。相应地,策略、值和奖励的预测目标是在生成存储的轨迹。

从下图可以看到过程生成(B)与训练(C)之间的一致性:

终极版AlphaGo,DeepMind新算法MuZero作者解读

具体问言,MuZero估计量的训练损失为:

重分析

在了解了MuZero的核心思想后,接下来我们将介绍重分析技术,这将显著提高模型对大量数据的搜索效率。

在一般训练过程中,通过与环境的相互作用,我们会生成许多轨迹,并将其存储在重播缓冲区用于训练。那么,我们可以从该数据中获得更多信息吗?

终极版AlphaGo,DeepMind新算法MuZero作者解读

很难。由于需要与环境交互,我们无法更改存储数据的状态、动作或奖励。在《黑客帝国》中可能做到,但在现实世界中则不可能。

幸运的是,我们并不需要这样。只要使用更新的、改进标签的现有输入,就足以继续学习。考虑到MuZero模型和MCTS,我们做出如下改进:

终极版AlphaGo,DeepMind新算法MuZero作者解读

保持轨迹(观测、动作和奖励)不变,重新运行MCTS,就可以生成新的搜索统计信息,从而提供策略和值预测的新目标。

我们知道,在与环境直接交互过程中,使用改进网络进行搜索会获得更好的统计信息。与之相似,在已有轨迹上使用改进网络重新搜索也会获得更好的统计信息,从而可以使用相同的轨迹数据重复改进。

重分析适用于MuZero训练,一般训练循环如下:

终极版AlphaGo,DeepMind新算法MuZero作者解读

设置两组异步通信任务:

为实现重分析,引入两个新任务:

终极版AlphaGo,DeepMind新算法MuZero作者解读

由于学习者无法区分新轨迹和重分析的轨迹,这使得新轨迹与重分析轨迹的比例更改变得简单。

MuZero命名含义

MuZero的命名基于AlphaZero,其中Zero表示是在没有模仿人类数据的情况下进行训练的,Mu取代Alpha表示使用学习模型进行规划。

更研究一些,Mu还有其他丰富的含义:

结语

希望本文对MuZero的介绍对你有所启发!

如果想了解更多细节,可以阅读 原文 ,还可以查看我在的以及在上发表的关于MuZero的演讲。

最后,分享给你一些其他研究人员的文章,博客和GitHub项目:


AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

终极版AlphaGo,DeepMind新算法MuZero作者解读

版权文章,未经授权禁止转载。详情见 转载须知 。

终极版AlphaGo,DeepMind新算法MuZero作者解读


本文地址: https://www.gpxz.com/article/508d552a682bb2c5859f.html
全局中部横幅
全局中部横幅
安卓软件

5566安卓网(01月21日)是手机游戏下载网站,为您提供好玩的安卓游戏,苹果游戏,手机游戏等专业内容。

广西建筑模板厂家

「紫豹木业」是一家贵港超大的生产基地排名前十的广西专业建筑模板厂家,提供优质建筑模板生产批发,价格合理,服务全国,专注建筑模板,覆膜板,清水模板,建筑红板,酚醛面建筑模板,铁红面建筑模板的生产批发,专业生产建筑模板20年!日产40000张!,经过二次成型,板面光滑,胶合力好,远销国内外受到客户的一致好评。

腕表售后维修客户服务中心

腕表售后维修客户服务中心是专业的手表维修保养信息服务中心,主要提供腕表维修、腕表保养、腕表修复、手表更换配件等名表维修服务.手表维修店官方授权,专业值得信赖,找全国各地区腕表售后维修点地址、客服电话及网点的查询服务就上铭表维修网.

猫头英

天翼云校招平台是中国电信联合西安电子科技大学网络与信息安全学院及陕西新才网络公司(猫头英)共同打造的一个线上校招平台,以中国电信天翼云平台为依托,全真模拟线下人才市场招聘会

上饶市名银科技有限公司

上饶市名银科技有限公司产品应用领域包括汽车电瓶,汽车配件,汽车音响。是集科研、设计、生产、检测、销售及服务于一体的现代化科技型企业。公司以全心全意为顾客服务,帮助客户解决难题,也赢得了广大客户的一致好评。公司始终坚持为客户创造价值的理念,坚持自主创新,先后引进的国外先进的机器设备,提高全体员工的素质

诠摄汇

诠摄汇网是中国摄影家协会旗下中国摄影报社新媒体平台,这是诠释摄影的平台,这是汇聚摄影人的平台。这里参加全国摄影展,观看摄影视频,收听摄影段子,发布摄影作品,举办个人影展。我们的宗旨是好玩、好用、好快乐!

Memobird.cn

厦门盈趣科技股份有限公司,是一家聚焦于物联网技术、专业从事“工业互联网”和“民用物联网”产品、服务的高新技术企业,是信息化和工业自动化的领航者,是国内领先的软硬件系统集成服务商。现有员工1000多名,其中高素质的技术研发工程师、管理者600多名。公司拥有省级企业技术中心、研发实验室、机器人研究中心等多个研究研发中心,并积极与高校合作设立前沿技术研究有关的产学研孵化基地。盈趣科技已形成以工业机器人、智能家居、智能制造、车联网、第三方软件服务(UMS联合管理平台)为一体的完整产业链。在不断完善自身的同时,积极寻求全球范围内的合作,公司目前已和数十家全球知名企业建立起全方位、深层次的战略合作关系。

大咖玩手游app

大咖玩游戏平台是一个主打仙侠、武侠、ARPG等特色的手游盒子,提供各种游戏福利礼包、折扣返利等等,为了让玩家有更丰富的游戏体验,享受手游乐趣。实时的游戏评论系统,促进玩家快速了解游戏内容,探讨自己喜爱游戏的优缺点。丰富的游戏资讯,让玩家第一时间掌握“新游”动态,让玩家之间找到更适合自己的游戏,发掘相互的共同爱好,促进玩家之间的交流。更多好游分享,尽在大咖玩。

青岛铝板

青岛翔合铝业有限公司是一家专业经营铝合金的大型企业,具有多年的铝板材销售经验,常年经销国内大型铝加工企业的优质产品,与西南铝业,东北轻合金,有着密切的合作,立足于山东青岛城阳,面向全国,具有质量和价格的优势。主要经营1系列到8系列各种铝合金牌号的铝合金板、铝花纹板、铝棒、铝管、铝箔、铝型材等。主要分一下几个品种:   1、铝板系列:主要以1060、2A12、3A21、5052、5754、5083、6061、6063、7075等牌号为主,常年备有几百吨各种规格型号的现货供您选择,并长期接收客户各种精确定尺和特殊规格要求的订单,订货时间短,服务周到,特别是5系列铝镁合金铝板,1系标牌用彩涂铝板,管道保温及各种氧化铝板。规格齐全,价格便宜。   2、铝花纹板系列:从厚度1.0mm到10mm,宽度500mm至2400mm,长度1000mm至8000mm的各种合金牌号的大五条、小五条、小三筋、二条筋、扁豆型、指针型、各种花型的花纹铝板都可供货。从厚度0.3mm到2mm,各种合金牌号的桔皮型、半圆型、菱形花型等多种花型的压花装饰用铝板都可供货。

连锁蛋糕店,网上订购蛋糕,网上蛋糕店,异地送蛋糕,全国生日蛋糕送货上门,尊贵蛋糕网

尊贵蛋糕网提供指定日期送到、最快当天2小时送货上门,是一家综合性各地连锁蛋糕店,专业提供网上订蛋糕已有16年,蛋糕款式新颖口味精致,对于各种生日、庆典所需的蛋糕配送服务拥有近15年的专业经验,支持微信付款、电话订购、支付宝及信用卡付款,还可以提供先送后付款。

陕西热镀锌,陕西热浸镀锌,西安热镀锌,西安热浸镀锌,西安华端电力科技有限公司

西安华端电力科技有限公司13991280312西安热镀锌,西安热浸镀锌,西安热浸锌经营:金属表面热浸镀锌防腐处理;金属材料、化工产品(除专控及易燃易爆危险品)、机电产品(除专控)、电工器材、电子产品(除专控)、输变电成套设备的销售;金属件、普通机械(除特种设备)的加工.

标虫商标

标虫网是一站式企业知识产权服务平台


全局底部横幅