卡牌游戏八合一 华人团队开源强化学习研究平台RLCard (卡牌游戏八合怎么玩)

卡牌游戏八合一华人团队开源强化学习研究平台RL

语音播放文章内容

由深声科技提供技术支持

雷锋网 AI 科技评论按:在过去的两三年中,我们经常听说人工智能在棋牌类游戏(博弈)中取得新的成果,比如基于深度强化学习的 AlphaGo 击败了人类世界冠军 ,由 AlphaGo 进化而来的 AlphaZero 还一并搞定了国际象棋和日本象棋 ;基于博弈论的 冷扑大师(Libratus)也在无限注德州扑克比赛中击败了人类职业选手 ;今年在澳门举行的 IJCAI 2019 上我们也发现了一篇 斗地主 AI 论文

不过,虽然这些团队各自做出了令人瞩目的成果,但不管对于工业界还是学术界来说,都缺少一个迅速开发和测试棋牌类 AI 的环境。最近德州农工大学胡侠带领的华人团队就给出了他们的解决方案,开源了基于牌类游戏设计的 强化学习 Python 平台 RLCard ,在打包实现了多种牌类游戏算法的同时,也提供了中西方最流行的几种牌类游戏环境(包括斗地主、麻将、21点、德州扑克、UNO等),致力于为强化学习提供一个统一、易用的开发和测试环境。雷锋网 AI 科技评论介绍如下。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

具体来说,RLCard 实现了四种有代表性的强化学习算法:作为强化学习的代表算法的 DQN、作为带有自我学习的强化学习的代表算法的 NSFP、反事实后悔最小化 CFR 以及深度反事实后悔最小化 DeepCFR。RLCard 中也带有一个随机智能体。

RLCard 中实现了八种牌类游戏环境:二十一点(Blackjack),三种德州扑克(简化版德扑 Leduc Hold'em,有限制德扑 Limit Texas Hold'em 以及无限制德扑 No-limit Texas Hold'em),斗地主,麻将,UNO 以及升级(目前升级游戏环境还在开发中)。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

RLCard 安装快速、使用简单,提供大量的实例、文档及 demo;提供人类与 AI,以及 AI 与 AI 间对战的接口,支持并行加速。平台设计遵循以下设计原则:

对于游戏环境实现,RLCard 平台抽象并定义了这些游戏概念:玩家,比赛(Game),对局(Round),发牌者(Dealer),裁判(Judger)。游戏环境实现都通过这些概念对应的类,这样的相同的设计规范让游戏逻辑更容易理解、更容易操作。别的牌类游戏也基本都可以符合这个结构,未来如果想要增加很容易。

作为对比,现有的强化学习库多数都是单智能体环境的(比如 OpenAI Gym);近期虽然也有一些支持多智能体的环境(比如星际2),但它们并不支持牌类游戏。RLCard 专为牌类游戏设计,不仅是一些牌类游戏在强化学习库中的首次实现,也提供了简单直观的接口,便于强化学习研究。

在目前的学术文献中,解决扑克游戏的最热门的方法是反事实后悔最小化(Counterfactual Regret Minimization,CFR),以及它的各种变体,胜过了人类职业选手的冷扑大师(Libratus)使用的就是基于 CFR 的方法。不过,CFR 很消耗计算资源,因为它需要完全遍历整个游戏树,所以它也不适用于斗地主之类的状态空间很大的游戏。

近期也有研究表明,强化学习策略可以在打赌类的博弈中取得很好的表现,比如玩斗地主就玩得不错。这些美妙的成果,以及强化学习本身的灵活性都让我们有可能探索状态空间、行动空间更大的更困难的牌类游戏。

RLCard 使用简单,输入 pip install rlcard 可快速安装。安装完成后,用以下 5 行代码就能用随机的智能体产生对局数据,返回的数据可直接用于强化学习算法训练。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

另外,RLCard还提供了丰富的的运行实例,包括产生随机数据,训练CFR、DQN、NFSP等算法,以及多进程运行实例。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

RLCard 提供人机对战 demo。RLCard 提供 Leduc Hold'em 游戏环境的一个预训练模型,可以直接测试人机对战。Leduc Hold'em 是一个简化版的德州扑克,游戏使用 6 张牌(红桃 J、Q、K,黑桃 J、Q、K),牌型大小比较中 对牌>单牌,K>Q>J,目标是赢得更多的筹码。与预训练模型对局展示如下:

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

除此之外,开发团队还对 RLCard 做了系统的评估。他们测试了最流行的强化学习算法在环境上的表现。测试方法包括与随机策略的比较以及 AI 间互相对战的比较。发现主流算法在小型游戏上普遍有较好的效果,但是在较复杂游戏(例如斗地主、UNO)效果一般。如何在复杂的游戏中更好地训练强化学习算法需要更多的研究。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

团队也对游戏运行的效率进行了评估。在 24 核 2.10GHz CPU 服务器上对各个游戏的运行时间进行了测试,使用多进程可以更高效地产生游戏数据。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard

目前 RLCard 的官网已经上线,其中提供了详细的文档。学术论文也已经发表在 arXiv,第一作者为查道琛。详细信息可以访问下面的链接:

未来,作者们还会继续优化和增强这个平台,他们的计划包括增加基于规则的智能体、增加更多预训练模型(帮助评价模型),增加更多游戏环境和算法,以及增加可视化和分析功能等。相信这个环境能对领域内的研究人员们起到很大帮助。

感谢查道琛、胡侠对文本提供的帮助。雷锋网 AI 科技评论报道。

原创文章,未经授权禁止转载。详情见 转载须知 。

卡牌游戏八合一,华人团队开源强化学习研究平台RLCard


本文地址: https://www.gpxz.com/article/e687f968eed515a19769.html
全局中部横幅
全局中部横幅
申芯微(上海)半导体科技有限公司

申芯微(上海)半导体科技有限公司(以下简称“申芯微”)2022年在上海成立的高科技初创企业,主要从事集成电路芯片及电子元器件产品研发、生产、销售业务。申芯微以为物联网领域、人工智能和大数据处理提供解决方案为使命,汇集了一批行业内的顶级专家,自主研发创新,为信息技术的发展作出贡献,同时在智能电力领域具有比较丰富的行业资源。

无锡华达电机

江苏西葆电力设备有限公司是雷勃电气无锡有限公司马拉松电机授权代理商,主营产品:马拉松电机、marathon电机、无锡华达电机、UL认证电机、NEMA电机。

优咔科技

上海优咔网络科技有限公司是一家提供车联网连接管理服务、车联网运营服务、车联网生态服务的通信高科技企业,是国内车联网行业专业的服务提供商和方案解决商。

东方人才网

海南东方市人才网站,是海南区域内专业的求职招聘平台。专为求职者提供丰富的工作信息,为招聘方寻找合适的优秀人才。东方招聘信息网覆盖了东方市的各行各业,无论您是想找工作还是招聘人才,我们都将为您提供专业|全面的服务。

新中式家具

上海忆苑家具,自成立以来一直专注于高品味的新中式家居饰品领域,以东方智慧融入产品内涵,以自然态度倾诉生活境界,以时尚姿态把握家居理念。是一家专业生产具有东方文化特色的时尚家居厂家,拥有一支集研发设计、生产、销售为一体的优秀团队。

随州门户网

随州门户网是一个以消费时尚,娱乐休闲,本地生活为主的大型综合性网站,内容涉及到本土衣食住行、吃喝玩乐等日常实用消费信息。

宁海在线

宁海影响力网络媒体,全面提供宁海本地综合信息资源,是了解宁海、互动宁海、共建宁海的渠道。

网络游戏攻略

澄拾将不断分享自己的游戏心得和经验,希望这种互动交流能够提升个人及玩家们的游戏技巧,还能够增加游戏的乐趣。

政策补贴宝

“政策补贴宝”是天九共享网络科技集团运用大数据、人工智能等技术,整合了全国政策数据,并基于精准算法开发了智能政策匹配系统。覆盖了我国各级政府每年发布的数千项政策,从国家部委到省、市、区县,政策主要发布部门包括科技、发改、招商、文化旅游、人社等多个部门。为企业服务,实现企业政策精准匹配,政策补贴快速申请。

山东盈莱洗涤服务有限公司

山东盈莱洗涤服务有限公司作为一家从事酒店、干洗以及加工、租赁三位为一体的现代化洗涤公司

临沭县人民医院

临沭县人民医院前身为中国人民解放军华野淮海战役战地医院,目前已经发展成为集医疗、教学、科研、预防、保健、康复为一体的现代化三级乙等综合医院,国家级爱婴医院。

自助销售网

自动销售网是一款用于软件充值等虚拟卡密24小时在线交易的自动销售平台,对比其他自动销售平台费率低,功能全,服务器安全稳定.销售平台就选自动销售网!

全局底部横幅