在Kaggle足球竞赛中一举夺冠 绝悟WeKick 碾压1138支AI!腾讯 (在kaggle上怎么保存代码)

文章编号:44391 资讯动态 2024-12-09 AI足球

你以为AI只会打王者?NO,踢足球也溜的很!

先来欣赏两个精彩片段:

快、准、直!一记完美的长传后,直射球门!

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

连续突破重围,轻松传球4次。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

看到如此娴熟的球技,你是不是和小编一样误以为是人类,其实赛场上的球员全部是AI代理。刚刚完成传球、射门的黄色球衣球员正式腾讯的绝悟AI——足球版WeKick。

绝悟,是腾讯AI Lab与王者荣耀联合研发的策略协作型AI,上个月刚刚升级为完全体(让AI掌握了所有英雄的所有技能)。绝悟Wicke版是基于绝悟完全体迁移得到的,并针对足球任务进行了针对性调整。

WeKick刚刚参加完首届谷歌足球Kaggle竞赛,以上是赛场上传来的精彩片段。在这场全球顶级AI足球赛中,WeKick凭借1785.8分分绝对性优势,一举击败了1138支优秀团队夺得了本次竞赛的冠军。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

这是绝悟完全体首次应用于足球任务,并参加大型国际足球竞赛,取得如此成绩,可见其背后深度强化学习方法的通用能力。

与王者荣耀一样,足球竞赛也属于即时策略型游戏,需要AI具备长线思考、快速决策、处理复杂环境的能力。在本次竞赛中,一个球员需要一个智能体(11vs11赛制),AI代理不仅需要控制球员之间的相互配合,还要时刻观察对手的行为,并做出及时应对。

在瞬息万变的赛场上,这背后需要复杂的团队协作、实时决策和竞争策略。

那么,在如此高难度的挑战赛中,为何绝悟WeKick能够杀出重围,夺得冠军?

WeKick背后的三大优化策略

此次竞赛使用的是Google Research Football强化学习环境。

得益于深度强化学习在游戏领域突飞猛进,从Atari游戏,围棋,再到多种不同的视频游戏,AI智能体在不断迭代中变得越来越强,使足球运动团队策略的难关也得以被攻克。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。

也就是说,单纯的从零开始完全采用强化学习来训练足球AI也相当困难。对此,腾讯AI Lab提出了三项改进方案:

首先是定制化框架,研究人员采用自博弈(Self-Play)强化学习来从零开始训练模型,并部署到异步的分布式强化学习框架中。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。

此外,由于MOBA游戏和足球游戏任务目标存在差异,绝悟WeKick采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合的方式,在特征与奖励设计上进行了扩展和创新。

该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使绝悟WeKick可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。

因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

这种League多风格强化学习训练方案的主要流程可简单总结为先专精后综合,如下:

内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高200分,比最强的风格化打法高80分。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

最后基于定制化的框架改进,生成对抗模拟学习(GAIL)方案以及 League (若干策略池)多风格强化学习训练方案,使绝悟远超过其他AI球员,取得了1785.8的高分。

Kaggle首届比赛,难度升级!

本届比赛是Kaggle首次针对足球AI领域发布的赛题。Kaggle是全球最大的数据科学社区和数据科学竞赛平台,创立于2010年。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

由于足球运动团队策略因其复杂性、多样性和高难度,一直是困扰世界顶尖AI研究团队的难题,加上稀疏的游戏激励使其成为比MOBA游戏更难攻克的目标。Google Research联合英超曼城在Kaggle上举办了这场赛事,希望进一步推动多智能体技术研究。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

基于此,不同其他AI足球赛事,本届比赛在难度上进行了大幅度升级,如前所述比赛采取11vs11赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队。

完整的足球独立智能体个数达到11个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,而且足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配将成为各个团队多智能体强化的一大挑战。

在参加本届比赛之前,腾讯绝悟团队已经从足球比赛中的单个智能体控制转向多智能体同时控制、协同作战深入的研究方向。之前,在参加5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中,腾讯绝悟团队也摘得了冠军。

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛中一举夺冠

此次,绝悟WeKick在足球竞赛中再次夺冠,可以看出完全体升级后的绝悟AI,其背后深度强化学习在处理复杂任务上的能力,以及其底层架构的通用能力。

腾讯AI Lab在智能体领域已开发多年,从围棋AI绝艺到MOBA游戏AI绝悟再到如今的AI足球队WeKick,其深度强化学习智能体步步进化,在逐渐向更复杂更多样化的问题迁移。腾讯AI Lab表示,他们的终极目标是迈向通用人工智能,长远来看,绝悟背后的研发经验和算法积累,未来还将在AI与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。

论文:

谷歌足球竞赛官网:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/f52bc0b891d96c952b2f.html
全局中部横幅
全局中部横幅
“weather.com.cn”的百度权重查询结果

查询百度权重和百度的关键字排名,查询360权重和360的关键字排名

RCO催化燃烧设备

福建桑涂环境科技有限公司是一家专注于RCO催化燃烧设备,环保催化燃烧设备,废气催化燃烧设备的高新技术环保企业,我司拥有严格的管理制度,一流的服务质量,详询18350183331。

重庆天赐温泉(集团)有限公司

重庆天赐温泉(集团)有限公司天赐温泉集团作为重庆打造“世界温泉之都”的主要缔造者和先行者之一,集团早在1996年就策划收购了重庆有名的东南西北四大温泉之一的——古西温泉,并把它加以彻底的改造和提升,让沉睡多年的古西温泉重新焕发青春。

帝恩思

帝恩思-(DNS.COM)全球领先的DNS综合服务提供商,平台涵盖DNS解析、高防DNS、DNS防劫持、网站劫持检测、SSL证书、高防CDN、云服务器ECS等多项业务,倾力打造新一代稳定、高效、安全的DNS综合服务提供商。

锦推网络致力于实用设备知识与维修信息分享

金邻优修致力于为大家分享真实有用的设备知识与维修信息,切实地帮助大家处理和解决家具生活中遇到的一些问题。

瑞普思医疗

瑞普思医疗创立于2009年,其前身是北京瑞普思技术培训有限公司,目前,瑞普思医疗主营医院信息化、医疗设备维修服务、医疗配件电子商务、连锁实体店四大产业。设备管理系统,信息化软件主要由医疗设备管理系统,医疗设备管理软件和医疗设备全生命周期管理系统。

龙迅长天

龙迅会员管理系统2009年推向市场,包括美业管理,会员管理,马场预约管理,微商城,小程序商城,大闸蟹提货系统,自助提货系统,提货系统,提货软件,微信公众号提货系统,二维码提货系统,卡券提货系统,另外还提供免费设计提货卡,二维码提货券设计印刷。

安徽鸿运仪表线缆股份有限公司

公司引进日本xj****的例行实验设备,产品研究开发中心等,主要产品:补偿导线、特种电线、电缆、高温电线、硅橡胶电线、计算机电缆、控制电缆、热电偶、热电阻、双金属温度计、压力表、流量计、温度控制模块等产品,电话;18955007888

导游之家

2026年导游证考试│电子导游证│导游证查询│导游词│导游段子│导游云课堂│导游资讯,关注公众号:导游之家(daoyouhome)了解更多...

Dope10最棒单

精选可以网购的潮流单品和网店,让你看得到立刻买得到,独家原创穿着讲堂深度分析穿衣搭配,用亚文化视角洞察潮流时尚

劳保安全鞋

广州赛固生产和销售的安全鞋,劳保鞋,工作鞋,防砸鞋产品给予世界成百上千万的工人最贴心的关怀和保护,让他们每天都能够安全地从工地回家,与家人团聚

全局底部横幅