机器之心报道
CoRL2020于11月16-18日线上举行,并颁发了多个奖项。来自斯坦福大学和弗吉尼亚理工的研究者摘得本届CoRL会议的最佳论文奖,华为诺亚方舟实验室和上海交大等机构学者荣获最佳系统论文奖,南加州大学研究获得最佳Presentation奖。
昨日,第四届机器人学习大会(CoRL)公布了最佳论文奖、最佳系统论文奖等奖项。来自斯坦福大学和弗吉尼亚理工学院的研究《LearningLatentRepresentationstoInfluenceMulti-AgentInteraction》获得CoRL2020最佳论文奖,最佳系统论文则由华为诺亚方舟实验室、上海交大和伦敦大学学院合作的《SMARTS:ScalableMulti-AgentReinforcementLearningTrainingSchoolforAutonomousDriving》摘得,南加州大学论文《AcceleratingReinforcementLearningwithLearnedSkillPriors》获得了最佳Presentation奖。
自2017年首次举办以来,CoRL迅速成为机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL是面向机器人学习研究的single-track会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。
CoRL2020共收到论文475篇,相比2019年增长了20%;接收论文165篇,接收率为34.7%,高于去年的27.6%。
会议还公布了包含主要关键词(如leggedrobots、perception等)的论文接收率,参见下图:
最佳论文奖
CoRL2020颁发了最佳论文奖,来自斯坦福大学和弗吉尼亚理工大学的研究者合作的论文获得该奖项。大会认为这篇论文是「为包括物理机器人环境在内的多个领域中的难题提供了令人信服的解决方案」。
论文:LearningLatentRepresentationstoInfluenceMulti-AgentInteraction
论文链接:https://arxiv.org/pdf/2011.06619.pdf
摘要:与机器人进行无缝交互非常困难,因为智能体是不稳定的。它们会根据ego智能体的行为更新策略,ego智能体必须预见到可能的变化才能做到共同适应(co-adapt)。受人类行为的启发,研究者认识到机器人不需要明确地建模其他智能体将执行的每一个低级操作。相反,它可以通过高级表示来捕获其他智能体的潜在策略。
该研究提出一个基于强化学习的框架,用来学习智能体策略的潜在表示,其中ego智能体确定其行为与另一智能体未来策略之间的关系。然后ego智能体利用这些潜在动态来影响其他智能体,有目的地指导制定适合共同适应的策略。在多个模拟域和现实世界曲棍球游戏中,该方法优于其他方法,并学会影响其他智能体。
最佳论文入围名单
此次会议共有四篇论文入围最佳论文奖项,除了最终得奖的论文以外,其他三篇分别是:
论文:GuaranteeingSafetyofLearnedPerceptionModulesviaMeasurement-RobustControlBarrierFunctions
链接:https://arxiv.org/pdf/2010.16001.pdf
论文:LearningfromSuboptimalDemonstrationviaSelf-SupervisedRewardRegression
链接:https://arxiv.org/pdf/2010.11723.pdf
论文:SafeOptimalControlUsingStochasticBarrierFunctionsandDeepForward-BackwardSDEs
链接:https://arxiv.org/pdf/2009.01196.pdf
最佳系统论文奖
本届CoRL大会的最佳系统论文奖授予了华为诺亚方舟实验室、上海交大和伦敦大学学院研究者联合发布的论文《SMARTS:ScalableMulti-AgentReinforcementLearningTrainingSchoolforAutonomousDriving》。在颁奖词中,CoRL称「该系统完备、考虑周密,为自动驾驶社区带来了强大的潜在影响」。
链接:https://arxiv.org/pdf/2010.09776.pdf
项目地址:https://github.com/huawei-noah/SMARTS.
摘要:多智能体交互是现实世界自动驾驶领域的基础组成部分。经历十几年的研究和发展,如何与多样化场景中各类道路使用者进行高效交互的问题依然未能很好地解决。学习方法可以为解决该问题提供很大帮助,但这些方法需要能够产生多样化和高效驾驶交互的真实多智能体模拟器。
所以,为了满足这种需求,来自华为诺亚方舟实验室、上海交大和伦敦大学学院的研究者开发了一个名为SMARTS(ScalableMulti-AgentRLTrainingSchool)的专用模拟平台,该平台支持多样化道路使用者行为模型的训练、积累和使用。这些反过来又可以用于创建日益真实和多样化的交互,从而能够对多智能体交互进行更深更广泛的研究。
SMARTS架构示意图。
此外,研究者描述了SMARTS的设计目标,解释了它的基本架构以及关键特征,并通过交互场景中具体的多智能体实验阐释了其使用流程。研究者还开源了SMARTS平台以及相关的基准任务和评估指标,以鼓励和推进自动驾驶领域多智能体学习的更多研究。
最佳系统论文奖入围论文
本届CoRL大会入围最佳系统论文奖的一篇论文是加州大学伯克利分校学者的《DIRL:Domain-InvariantRepresentationLearningforSim-to-RealTransfer》。
链接:http://www.ajaytanwani.com/docs/Tanwani_DIRL_CORL_CR_2020.pdf
最佳Presentation奖
会议还公布了最佳Presentation奖项,从所有oralpresentation论文中选出了三篇入围论文,最终来自南加州大学的研究获得了该奖项。
论文:AcceleratingReinforcementLearningwithLearnedSkillPriors
链接:https://arxiv.org/pdf/2010.11944.pdf
智能体在学习新任务时严重依赖之前的经验,大部分现代强化学习方法从头开始学习每项任务。利用先验知识的一种方法是将在之前任务中学到的技能迁移到新任务中。但是,随着之前经验的增加,需要迁移的技能也有所增多,这就对在下游学习任务中探索全部可用技能增加了挑战性。还好,直观来看,并非所有技能都需要用相等的概率进行探索,例如当前状态可以提示需要探索的技能。
南加州大学的这项研究提出了一个深度潜变量模型,可以联合学习技能的嵌入空间和来自离线智能体经验的技能先验。研究者将常见的最大熵强化学习方法进行扩展,以使用技能先验引导下游学习。
该研究在复杂的导航和机器人操作任务中对提出的方法SPiRL(Skill-PriorRL)进行验证,结果表明学得的技能先验对于从丰富数据集上进行高效技能迁移是必要的。
研究人员放出了其官方PyTorch实现,代码地址:https://github.com/clvrai/spirl。
项目主页:https://clvrai.github.io/spirl/
最佳Presentation奖入围论文
除最终获奖的南加州大学论文以外,另外两篇入围论文分别来自UberATG团队、多伦多大学与谷歌。
论文:UniversalEmbeddingsforSpatio-TemporalTaggingofSelf-DrivingLogs
链接:https://arxiv.org/pdf/2011.06165.pdf
论文:TransporterNetworks:RearrangingtheVisualWorldforRoboticManipulation
链接:https://arxiv.org/pdf/2010.14406.pdf
CoRL2020论文展示视频和直播参见:https://www.youtube.com/c/conferenceonrobotlearning
参考链接:https://syncedreview.com/2020/11/17/conference-on-robot-learning-corl-2020-underway-best-paper-finalists-announced/
AmazonSageMaker1000元大礼包
ML训练成本降90%,被全球上万家公司使用,AmazonSageMaker是全托管机器学习平台,支持绝大多数机器学习框架与算法,并且用IDE写代码、可视化、Debug一气呵成。
现在,我们准备了1000元的免费额度,开发者可以亲自上手体验,让开发高质量模型变得更加轻松。
点击阅读原文,填写表单后我们将与你联系,为你完成礼包充值。
THEEND
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com