智东西
编辑 | 心缘
智东西12月30日报道,拿下世界足球冠军有多难?这不,近日腾讯派出的人工智能(AI)球队,轻轻松松拿下首届谷歌足球Kaggle竞赛的No.1。
这支冠军球队来自腾讯AI Lab研发的绝悟WeKick版本。今年11月底,腾讯AI Lab与王者荣耀联合研发的策略协作型AI绝悟升级为完全体,首次让AI精通了所有英雄的所有技能。此次绝悟WeKick版本的整体设计,正是基于绝悟完全体迁移得到。
▲绝悟WeKick(黄色球衣)vs SaltyFish(本次竞赛第二名)近期的一局比赛实录:绝悟WeKick射门
在架构迁移的基础上,绝悟WeKick版本针对足球任务进行了一些针对性的调整,使其能适应11智能体足球游戏训练环境,展现了绝悟AI背后深度强化学习方法的通用能力。
绝悟WeKick版本如何实现了比其它竞争AI球队更强的优势?这里,我们对其赢得冠军背后的核心技术进行解读。 一、足球AI赛题首发,逾1100支科研队伍参战
一直以来,足球运动团队策略以其复杂性、多样性和高难度,成为长期困扰世界顶尖AI研究团队的难题,更加稀疏的游戏激励使其成为比MOBA游戏更难攻克的目标。
创立于2010年的Kaggle,是全球最大的数据科学社区和数据科学竞赛平台。此次竞赛是Kaggle首次针对足球AI领域发布赛题,由Google Research与英超曼城俱乐部在Kaggle平台上联合举办,这为深度强化学习多智能体技术竞技和基准评测提供了一个全新平台。
比赛使用Google Research Football强化学习环境,基于开源足球游戏Gameplay Football开发,采取11 vs 11的赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队,兼具挑战性和趣味性。
一经推出,便吸引了来自世界顶级院校和研究机构的1100多支科研强队参与挑战。最终,腾讯派出的绝悟WeKick球队,凭借1785.8的总分以显著优势获胜。
▲Kaggle竞赛Google Football排行榜前五名
大赛排行榜:https://www.kaggle.com/c/google-football/leaderboard 二、11个强化学习智能体的协作与对抗
Google Football(on Kaggle)以流行的足球游戏为模型,就像是一款由AI操作的FIFA游戏,智能体控制足球队中的一个或所有足球运动员,学习如何在他们之间传球,并设法克服对手的防守以进球。
其竞赛规则与普通足球比赛类似,比如目标都是将球踢入对方球门以及越位、黄牌和红牌规则。
不同于常见足球视频游戏的统一调控式NPC球队,在本次Kaggle竞赛中,每个球员都各由一个单独的智能体控制,而参赛的AI模型则根据比赛情况控制其中一个智能体,与其他10个内置智能体配合。
这要求每个球员不仅需要观察对手的行为,还需要留意己方队员的情况,因此背后需要非常复杂的团队协作和竞争策略作为支撑。
▲绝悟WeKick(黄色球衣)vs SaltyFish(本次竞赛第二名)近期的一局比赛实录:绝悟WeKick传球
比如当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置,预测控球球员的下一步动作,还需要与己方其他球员协同如何合规地夺取足球的控制权。由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。
此外,从零开始完全采用强化学习方法来训练完整的足球AI也相当困难。
与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。 三、绝悟AI如何夺冠?解读关键技术秘籍
那么,绝悟AI如何走上冠军之路?
得益于深度强化学习在游戏领域突飞猛进的发展,从Atari游戏、围棋再到更多类型的视频游戏,AI智能体不断迭代优化,逐渐攻克更难的策略协作型任务。
与多数参赛队伍一样,绝悟WeKick版本采用了强化学习和自博弈(Self-Play)来从零开始训练模型。其训练的基础架构基于绝悟完全体的架构迁移得到,总体上采用一种改进版PPO强化学习算法,在价值估计上采用了多头价值(MHV)估计方案,在特征设计上对标准的115维向量进行了扩展,使之包含更多特征。
▲架构概况
绝悟WeKick版本部署了一种异步的分布式强化学习框架。该异步架构虽然牺牲了训练阶段的部分实时性能,但显著提升了灵活性,还支持在训练过程中按需调整计算资源。
由于MOBA游戏和足球游戏任务目标的差异,绝悟WeKick版本在特征与奖励设计上进行了扩展和创新,采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合的方法,来拟合专家行为的状态和动作分布,使得其可以从其它球队学习,再将GAIL训练的模型作为固定对手进行进一步自博弈训练,从而进一步提升策略的稳健性。
▲GAIL的优势(WeKick的奖励设计综合了Reward Shaping和GAIL两种方案)
但通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛中,单一风格的模型可能因没见过某种打法而表现失常,最终导致成绩不佳。
于是为提升策略的多样性和稳健性,绝悟WeKick版本还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。
该方案的主要流程可总结为“先专精,后综合”。
1、训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;
2、基于基础模型训练出多个风格化模型,每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;
3、基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。
内部能力评分系统显示,加入对手池训练以后的主模型,可以较基础模型提高200分,比最强的风格化打法高80分。
▲对战评分
总体来看,基于绝悟完全体的架构迁移、定制化的框架改进,加上关键性的生成对抗模拟学习(GAIL)方案和League(若干策略池)多风格强化学习训练方案,助力绝悟WeKick最终获胜。 结语:深度强化学习正从游戏拓展到更多复杂场景
腾讯AI Lab正不断展现其在前沿AI技术上的研发实力。从围棋AI绝艺,到MOBA游戏AI绝悟、绝悟完全体升级,再到如今能适应复杂足球竞技场景的AI足球队WeKick,腾讯AI Lab的深度强化学习智能体正通过持续迭代,逐渐向更复杂更多样化的问题迁移,并向通用人工智能的终极目标不断迈进。
据悉,绝悟团队的研究方向正在从足球比赛中的单个智能体控制向11个智能体同时控制、协同作战深入。当完整的足球独立智能体个数达到11个,随着智能体个数的增长,强化学习的难度将呈现指数级的爆炸增长。同时,足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配,也一直是多智能体强化学习的难题。
在此之前,腾讯绝悟团队在5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中也获得冠军。
这些在不同策略协作型场景中的应用,体现了腾讯绝悟AI底层架构与方法的通用性。长远来看,绝悟背后的算法积累,未来有望在智慧农业、智慧医疗及智慧城市等更多领域,创造出更大的实用价值。