历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军 (考研历史最高分)

文章编号:44145 资讯动态 2024-12-09 MinecraftAI腾讯绝悟

绝悟AI开始挑战更复杂的开放世界游戏环境了。

Minecraft (中文译名《我的世界》)是全球最畅销的开放世界3D游戏。随机生成的开放地图、自由灵活的玩法、多线程长链条任务,给AI研究带来了极大挑战。针对Minecraft的复杂环境,游戏AI赛事MineRL邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石。

12月8日,第三届MineRL竞赛主赛道(reseARCh track)发布成绩,AI的“钻石之梦”向前踏进了一大步:腾讯AI Lab“绝悟”以76.970分的绝对优势夺冠。研究成果已发布在Arxiv上,算法框架可复用于其他复杂决策环境。

历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

(论文链接:)

MineRL竞赛由卡内基·梅隆大学、微软、DeepMind、OpenAI,联合机器学习顶级会议NeurIPS共同举办,极富挑战性的赛题持续吸引全球开发者关注。今年赛事共有59支团队、近500名选手投身其中,其中不乏世界顶级学府和研究机构的科研强队。竞赛的研究主题是:训练样本高效的Minecraft AI智能体。

腾讯AI Lab创新性地通过分层强化学习(Hierarchical Reinforcement Learning)、表示学习(Representation Learning)、自模仿学习(Self-imitation Learning)、集成行为克隆(Ensemble Behavior Cloning)等算法高效实现比赛目标。

历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

(绝悟AI以压倒性优势获得历史最高分,今年榜单)

极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好都增加了Minecraft AI研究的难度。比如,为了让AI在15分钟内找到钻石,AI需要经历徒手采集原木、合成木板、木棍与木镐,采集到铁矿,经过一系列加工才能合成钻石。

此外,主办方还制定了种种严苛的规则:包括禁止参赛者编写规则、游戏环境甚至将背包信息与动作空间加密、且不允许使用预训练模型,只允许与环境最多交互八百万次,每个参赛队伍只能使用6核CPU与半张NVIDIA K80显卡训练4天——这个配置几乎对于所有高校实验室与个人研究者都可以负担的。

这次比赛的目的在于促进样本高效(Sample-efficient)游戏AI算法的发展。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程,耗费大量的时间和计算资源。而纯靠人类数据的模仿学习算法虽然更快,但性能上往往不尽如人意。

历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

绝悟AI创新性地提出了一种样本高效的基于分层强化学习(Hierarchical Reinforcement Learning)的解决方案。数据表明,腾讯AI Lab推出的上层控制器的预测准确率可以达到99.95%,也就是说,AI从人类数据中学到了一套几乎不出错的宏观策略,每时每刻都清晰地知道自己下一步的正确动向。

在状态空间表征上,Minecraft游戏遇到的最大挑战在于如何理解复杂的开放地图。首先被选中的是近年来热门的表示学习方法(RepresentationLearning)。但研究人员很快发现,已有方法只适用于2D场景,在MineCraft游戏环境里效果很差。于是腾讯AI Lab设计了一种“基于动作感知”(Action-aware Representation Learning)的新颖算法,用来捕捉每个动作对环境产生的影响,形成注意力机制。实验表明,该算法可以显著提升智能体获得资源的能力与效率。

历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军

(不同动作的可视化结果,AI学会了关注当前图像中的关键区域)

随着游戏推进,智能体与人类的策略出现了很大的分歧。此时,人类数据已经很难用于指导AI。绝悟AI使用了自模仿学习(Self-imitation Learning)的思想,提出了基于鉴别器的自模仿学习算法,AI可以从自身过往的成功与失败中获得经验与教训,并在察觉到当前状况不妙的时候,主动往更好的方向修正。对比实验证明,在加入自模仿策略后,智能体探索到的行为更加一致,也可以显著降低进入危险区域的概率。

对于合成物品等需要长链条的动作序列的任务,研究人员也做了细致的优化。通过动作序列一致性过滤(ConsistencyFiltering)与基于投票的集成学习(EnsembleLearning),模型在合成物品阶段的成功率从35%提升到96%,一举将最薄弱的链条扭转为了最稳定的制胜点。

利用高度复杂、高度定制化的游戏场景作训练场,腾讯AI Lab的深度强化学习智能体正不断走近现实。棋牌游戏AI “绝艺”从围棋棋盘逐步走向象棋、麻将,策略协作型AI “绝悟”从MOBA走向FPS、RTS,再到如今的3D开放世界MineCraft。它们迈向全新挑战的每一步,都让AI离解决现实问题、科技向善的大目标更近了一步。

随着虚实集成世界逐步变成现实,这些研究的经验、方法与结论,将在真实世界创造更大的实用价值。

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
造梦无双下载

4399安卓游戏为您提供造梦无双手机版下载、造梦无双安卓版下载,造梦无双攻略、评测,更多造梦无双手游下载尽在4399手机游戏网。

曼秀雷敦肌本科护肤品

肌本科dermistry+,一家专注于肌肤研究与科学成分,以严格GMPC制药级标准研发精华原液的护肤品牌,产品涵盖细肤小d瓶,科学配比,满足女生不同的日常护肤需求。

网站首页

浙江永联汽车配件有限公司

长春电脑城,长春电脑维修,眼镜批发零售,打印机耗材

长春科技城为您提供长春电脑城,二手电脑,电脑组装,电脑维修,打印机,打印机耗材,导航仪,电脑耗材,长春眼镜城,眼镜批发,眼镜零售,长春科技城物业管理有限公司拥有一支专业的经理团队,科学管理,值得信赖!

东莞市万洋环境科技有限公司

东莞市万洋环境科技有限公司一直致力于模拟可靠性环境检测仪器和力学,光学,电池,老化,汽车,电子精密仪器设备的研发,生产,销售及服务的专业生产商,主营:环境可靠性检测,力学检测,电池检测,光学测量.电话:0769-87780902.

牛卡号专注手机靓号十余载,拥有8000万海量号源任意选号,网上选手机靓号首选牛卡吧靓号网

手机靓号网上在线选号营业厅,拥有移动联通电信手机号码生日号深圳北京上海广东手机靓号,联系客服还可以定制靓号,回收3-7连手机靓号

西北旅游攻略

想要了解豆包西北旅游的最佳攻略吗?在豆包西北旅游攻略网上可以找到全面的西北自由行攻略和出游攻略游记,帮助您规划完美的西北旅行。

东莞市京立光学仪器有限公司

日本三丰量具,三丰卡尺,三丰千分尺,三丰千分表,三丰粗糙度仪,三丰高度尺,三丰测高仪,三丰投影仪,日本UnipulseF490A压力测试仪,压力传感器,电子称,天平,涂层测厚仪,光源箱,推拿力计,品,联系人:杜先生,联系电话:

网页游戏

爱上去网页游戏平台,最新网页游戏大全,为您提供最好玩的新开网页游戏开服表,2013网页游戏排行榜

北京新能和再生能源科技发展有限公司

新能和成立于2015年,定位为可再生能源和环保行业的综合服务商,服务范围包括:垃圾处理设施驻场/在线监管、监测、检查考评服务;发电项目并网咨询、电价咨询、工程质量监督管理咨询;安全生产管理咨询和定制化培训等。

小平平个人引导页

她只是途径我留下了星火而我却任凭它焚烧了我整个荒原

洛阳易高机械有限公司

洛阳易高机械有限公司成立于2003年,是数控异形玻璃切割机的专业生产企业,公司拥有玻璃深加工行业有关的自动化切割技术及设备,可为有需求的客户提供完整的技术支持与服务。生产的产品经国内外多家汽车、家具、家电、建筑等厂家使用,主要性能指标完全达到世界知名品牌产品的水平,在国内同行业中处于领先地位。

全局底部横幅