AI再一次击败人类世界冠军,登上Nature封面。与上一次AlphaGo下围棋不同,这次不是脑力运动,而是在真实物理环境中的竞技体育项目——“空中F1”无人机竞速。与AlphaGo也有相同之处,核心技术都是深度强化学习。

图片

成果来自苏黎世大学,作者之一Davide Scaramuzza认为,这是国际象棋的深蓝、围棋的AlphaGo之后的又一大突破。这标志着自主移动机器人首次在为人类设计并由人类设计的物理环境体育运动中击败人类冠军。

先介绍一下这个运动项目:FPV(第一人称视角)无人机竞速。
人类选手会通过机载摄像头传输的视频,从无人机的视角观察环境,穿越障碍。
31203934-11.gif

赛道由七个方形大门组成,每一圈都必须按顺序通过。要赢得比赛,参赛者必须连续领先对手完成三圈。两台无人机同时出发,正面对决,最高速度可达每小时100公里,同时承受数倍于重力的加速度。
31204120-12.png

这次与AI同台的是2019年无人机竞速联盟世界冠军Alex Vanover、MultiGP国际公开赛世界杯冠军Thomas Bitmatta和三届瑞士全国冠军Marvin Schaepper。

对AI来说,要达到专业人类选手的水平非常有挑战性,因为无人机需要在物理极限下飞行,同时仅通过机载传感器估计速度和位置。
为解决这些挑战,苏黎世大学设计了Swift,由两个关键模块组成:

  • 感知系统,将高维视觉信息和惯性信息转换为低维表示。
  • 控制策略,感知系统产生的低维表示并产生控制命令。

其中,感知系统主要是一个VIO(Visual-Inertial Odometry)模块,同时利用视觉和惯性传感器对自身定位和对环境建模。
31204143-13.gif
VIO估计与神经网络相结合,用于检测障碍门的四个角点。
31204255-14.gif

控制策略是一个前馈神经网络,使用无模型的On-policy深度强化学习进行模拟训练,奖励目标结合了向下一个门的中心前进,和保持下一个门在摄像机视野内。
31204414-15.gif
为了弥合模拟和物理世界之间感知和动力学上的差距,使用了从物理系统中收集的数据,驱动一个MLP残差模型。
31204704-16.png

在比赛开始前,人类选手在指定赛道上有一周的练习时间,赛道包含“Split-S”等高难度机动动作。
具体规则还有:由声学信号(发令枪)开启比赛,如果发生碰撞也可以继续比赛,如果两架无人机都坠落则飞得远的获胜。
最终在与三位人类选手的比赛中,Swift分别拿下了9局5胜,7局4胜,和9局6胜的成绩。

论文地址:https://www.nature.com/articles/s41586-023-06419-4
参考链接: https://x.com/davsca1/status/1696938013421429111