解读斯坦福大学最新成果——自动驾驶的神经网络模型

简介 首先,研究人员让一辆2009年奥迪TTS在基于物理的自动系统控制下加速,该系统预装了相关条件的固定信息。当在同一场地连续实验10次后,2009年奥迪TTS和经验丰富的业余车手产生了差不多的单圈时间。然后,研究人员用他们的新的神经网络系统测试,尽管神经网络缺乏关于道路摩擦的明确信息,但这辆车在运行神经网络学习系统和基于物理的系统时表现相似。在模拟测试中,神经网络系统在高摩擦和低摩擦情况下均优于基于物理的系统。在混合高摩擦和低摩擦两种情景中,该系统表现良好。

研究目的 自动驾驶汽车自主导航行驶,首先要对路径进行规划设计,然后沿着安全的轨道行驶。为了证明自动驾驶比人类驾驶更安全,自动驾驶汽车必须在大范围的驾驶环境和危急情况下,表现出同人类司机一样或更好的驾驶表现。

基于此种想法,斯坦福大学研究人员设计了一个前馈反馈控制结构,结合一个简单的基于物理的模型,用来跟踪业余组冠军赛车手驾驶汽车时候的各种路径的摩擦极限和车辆的性能。该项研究的关键是拥有合适的模型。尽管基于物理的模型在透明性和直觉方面很有用,但它们需要围绕单个操作点进行显式描述,并且无法利用自动驾驶汽车生成的大量车辆数据。为了克服这些限制,研究人员提出了一种神经网络结构,使用物理模型驱动的一系列过去状态和输入。在实验车辆上采用相同的前馈-反馈控制结构时,神经网络的性能优于物理模型。更值得注意的是,当对来自干燥路面和雪地的数据进行组合训练时,该模型能够对车辆正在行驶的路面做出适当的预测,而不需要进行明确的路面摩擦估计。这些结果表明,该网络结构值得进一步研究。

研究现状 虽然已经开展了大量的工作来开发自动驾驶的控制技术,但是大部分工作都集中在正常驾驶条件下控制车辆,并且在高摩擦且干燥的路面上进行了轻柔的操作。许多相关文献已经阐明,在摩擦极限附近控制车辆是一个不容忽视的挑战。从根本上说,当车辆接近轮胎-路面摩擦的极限时,它变得不稳定(如果后轮胎达到极限)或不可控制(如果前轮胎达到极限)。 为了跟踪车辆的极限路径,车辆的道路-轮胎摩擦系数的某些估计对于轨迹设计和确定适当的转向命令是必要的。总的来说,获得这样的估计是具有挑战性的。由于轮胎-路面摩擦经常快速变化并且道路的一些部分可能由不同的表面组成,使研究过程进一步复杂化。除了难以估计该关键参数之外,开发可用于轨迹生成和在极限处跟随的精确动态模型是一项艰巨的任务,因为运动方程是高度非线性的。设计者必须进一步选择适当的保真度,从而决定是否包括诸如由于加速引起的轮胎重量传递或快速转向运动产生的轮胎力滞后等效应。

对于控制系统设计人员来说,处理极限是一项挑战,而对于普通驾驶员而言,处理极端情况的极限条件也是一项挑战,并且极端条件下的摩擦不稳定是许多事故的罪魁祸首。只有少部分驾驶能力在业余水平以上,并且具有赛车经验的驾驶员,能够在这种路况下安全地控制车辆。如果自动驾驶车辆想要在危急情况下能够比经验丰富的驾驶员更好地操纵自动驾驶车辆,那么跟踪控制器性能的标准必须设置得相当高。

该项目中,研究人员展示了一个简单的路径跟踪架构,该构架可以使自动驾驶车辆准确地跟踪路径,达到像赛车手一样充分利用轮胎-道路的摩擦的能力。该项目的关键是找到恰当的模型。研究人员使用基于物理的动力学模型进行前馈控制,这是一个简单的线性反馈控制器,搭配根据车辆建模的摩擦极限设计的轨迹,汽车可以在模拟的摩擦极限下以平均路径跟踪误差低于40厘米的精度行驶。由于该模型仅代表对真实极限的估计,因此研究人员将自动驾驶汽车的性能与业余赛车手进行基准测试,并比较赛道上各赛段的单圈时间。这种新颖的比较方法表明,控制器在模拟摩擦极限下的操作在摩擦利用率方面与经验丰富的赛车赛车手的能力相当。

深入研究 简单模型准确有效的前提条件是在特定条件,比如特定的温度、干燥的高摩擦赛道等等。那么,如何为条件不确定的公路自动驾驶车辆开发出可比模型呢?尽管获得不同车辆的参数作为典型开发过程的一部分是可行的,但是几个参数随着道路状况的变化结果差距很大。尽管研究人员已经证明了可以适应不断变化的道路状况的在线参数估计,但是这些技术尚未成熟的运用到汽车的商业部署或安全关键系统;而且,已有研究成果的实时估算不会利用当前车辆产生的大量数据。鉴于随着模型复杂性的增加,参数估计变得更具挑战性,它也没有解决模型保真度的问题。理想情况下,模型生成过程应该能够利用不同摩擦水平的表面数据,减少先验建模决策的数量,同时仍然捕获针对特定条件调整的基于物理的模型的准确性和性能。

这些要求促使人们研究用于车辆控制的神经网络模型。神经网络模型由于具有普遍的函数逼近特性,近年来取得了许多成果,如在图像识别和围棋方面的基准测试。早期对神经网络模型的研究表明,这些模型能够进行车辆控制和动态模型识别。神经网络车辆模型在从四轴飞行器控制到大规模拉力赛车辆控制的众多机器人应用中取得了成功。以上这些模型已成功地用于车辆动力学模型识别,但尚未用于捕捉在多个摩擦面极限下行驶时的车辆动力学变化。此外,神经网络模型可以使用历史信息来捕捉时变或高阶效应,如模型直升机和机器人应用程序中所示。

研究人员提出了一个可行性研究:研究人员利用基于物理模型的状态和输入作为指导,开发了一个两层前馈神经网络,能够学习车辆在不同表面上的动态行为。该网络包含了当前测量值和来自前三个时间步骤的历史信息的组合。历史信息使网络能够提供不同摩擦水平下的行为预测,而不需要显式的摩擦估计方案。当对高摩擦和低摩擦数据进行组合训练时,该模型做出了与历史信息描述的表面相适应的预测。通过上述摩擦估计步骤,具有历史信息融合估计和预测能力的神经网络,简化了车辆控制任务。这种额外的功能并没有以性能为代价。与基于调优物理的模型相比,研究人员在极限处显示了更好的路径跟踪性能。仿真研究表明,该神经网络模型能够捕捉到一系列简单物理模型所没有的动态行为。

实验方法 为了研究路径跟踪体系结构在车辆操纵能力极限下的性能,研究人员设计了一个与有经验的人类驾驶员的实验比较。在这种情况下,研究人员的自动驾驶汽车的一个合适的基准是一个熟练的人类驾驶员,他具有丰富的驾驶和业余赛车经验,并熟悉测试课程。在本实验中,研究人员使用了一个基于物理的前馈反馈控制器(如图1所示),该控制器实现在一台自动化的2009年奥迪TTS (Shelley)上。控制器通过制动、节流阀和换挡命令跟踪所需的路径,而另一个控制器通过制动、节流阀和换挡命令匹配所需的车速。通过优化技术设计路径和速度剖面,使基于车辆模型的轨迹驱动所需时间最小化。

图1 简单的前馈反馈控制结构,用于自动车辆的路径跟踪

图2 Shelly

该模型用于前馈控制产生一个适当的转向角,适用于给定的路径曲率和车辆纵向速度。这种输入的准确性对产生的路径跟踪误差和所需的反馈工作都有很大的影响。这里的前馈转向指令是由平面单轨或自行车模型的运动方程推导而来的,平面单轨或自行车模型是由牛顿物理推导而来的车辆动力学共同体中常用的模型。本文所提到的基于物理的模型明确地指的是平面自行车模型。为了计算前馈转向输入从这些运动方程,研究人员使用稳态运行条件来确定前馈轮胎的力量。

随后,通过使用基于物理的轮胎模型,将这些稳态轮胎力转换为所需的转向输入,该模型明确地考虑了轮胎力产生和饱和的影响。为了补偿前反馈指令产生的误差和干扰,研究人员使用一个简单的基于路径的转向反馈控制器来跟踪期望的轨迹。该控制器基于e,即车辆偏离期望轨迹的横向偏差DY,即车辆偏离期望轨迹的航向偏差,如图1所示。利用非线性最小二乘拟合实验车辆数据,对基于物理模型的轮胎参数进行拟合。

为了比较自动化方法和经验丰富的司机,研究人员创建了一个封闭的赛道研究的赛车性能包括在加利福尼亚州Thunderhill Raceway Park的前五个转弯。自动驾驶汽车和人类参与者都试图在最短的时间内完成课程(如图3)。这包括以接近0.95g的加速度驾驶,同时在轮胎附着的物理极限处跟踪最短时间的赛车轨迹。在这种纵向和横向加速度的综合水平下,车辆能够在部分赛道上接近95英里每小时(英里每小时)的速度。自动驾驶汽车和人类参与者都参与了10项在封闭赛道上驾驶的试验。测试是在相同的条件下进行的,包括在自动驾驶和人工驾驶测试中,给汽车压载以使车辆的质量相等。即使在这些极端的驾驶条件下,控制器也能够始终跟踪赛道,平均路径跟踪误差在赛道上的任何位置都低于40cm(如图4)。

图3 人类司机和Shelley

图4

为了研究轨迹跟踪的一致性,研究人员检验了平均绝对偏离中值轨迹离散度,这是对每个驱动轨迹偏离轨迹中心线的鲁棒性度量。经验丰富的驾驶员在两圈之间的平均路径散布比自动驾驶的车辆要大得多(图4)。这些数据也被表示为在图3中航迹图上的投影,其中N表示测试课程的北方方向。控制器的路径偏差一致性表明,该控制方法精度高。利用高精度GPS定位系统跟踪预先计算的轨迹,可以解释自动车辆的低路径离散性。正如后面所讨论的,人类驱动路径的高度分散性表明,人类驾驶员采用的策略与自动驾驶车辆不同。因此,在跟踪精度或可变性方面,人类和自动驾驶车辆无法进行比较。然而,它们可以在时间方面进行比较。

研究人员使用分段时间的度量来比较自动车辆和人类驾驶员,因为这是赛车驾驶员和自动车辆的期望轨迹都试图最小化的度量。为了比较研究人员封闭赛程的赛段时间,研究人员将赛段分为三个赛段。图5显示了在Thunderhill Raceway Park进行的人类驾驶员和自动驾驶车辆联合试验中记录的分段时间。Shelley通过每段赛道的时间都在人类驾驶员的分段时间范围内,这表明基于模型的控制器的性能可以与赛车驾驶员在Shelley能力的极限下进行比较。可比较的搭接次数表明,基于物理模型的简单前馈反馈控制器的摩擦利用率可比较。相对于人类驾驶员,低路径分散和可比较的路段时间是由调整到特定路面的模型造成的。在建立了一个相对于有经验的人类驱动程序的性能基准之后,研究人员可以使用这个控制器性能作为神经网络模型的基准。

图5

在基于物理模型考虑状态和控制的激励下,研究人员选择使用前馈神经网络,其输入如图6所示。该神经网络模型由两个隐层组成,每层有128个单元,每个模型状态或控件采用三种延迟输入状态。与基于物理的模型相似,该网络预测了车辆的偏航率和横向速度导数。

该网络最初以监督的方式进行训练,以复制基于物理的模型。在基于物理模型输入空间中对200,000条轨迹进行全范围训练后,研究人员利用在高摩擦和低摩擦测试中收集的实验车辆数据更新了神经网络。在Thunderhill Raceway Park进行了高摩擦试验,在北极圈附近的试验跑道上对冰雪混合物进行了低摩擦试验。

图6

虽然神经网络模型可以用于多种控制方案,但研究人员希望将其与基于物理的前馈反馈控制器提供的基准进行比较。因此,研究人员使用学习的神经网络模型来生成前馈命令,与基于物理的模型做出相同的稳态假设。为了生成前馈转向指令,研究人员利用二阶非线性优化方法建立了神经网络动力学模型的平衡点。测量的速度和路径曲率作为优化的输入,以指定正确的前馈命令。对车辆进行在线优化,从网络中以20hz的速率计算前馈转向指令。为了补偿扰动和模型失配,研究人员在两种情况下都使用了相同的基于简单路径的反馈控制器结构来进行控制器之间的比较。

研究人员通过在一辆自主的大众GTI(图7)上实现这两种控制器进行了比较,研究人员有机会使用它来获取雪的数据,因为雪是为自动驾驶准备的。图8显示了用于评估两个控制器的Thunderhill Raceway Park滑块上的椭圆轨道。两种控制方案均采用相同的纵向速度剖面和纵向控制器,并在整车性能极限下进行了试验。对比发现,图9中标记为1的转弯入口时,神经网络控制器比基于物理的模型学会了更多的转向,从而降低了转弯中段的跟踪误差。在转弯中途,跟踪误差受道路轮胎摩擦力的影响,负误差表明车辆超过了抓地力极限。此外,神经网络控制器在转弯出口(3)的转向指令较少,因为它更接近所期望的路径。出口和直线段的峰值受控制器增益、前向距离等转向反馈参数的影响。研究人员发现神经网络控制器能够在极限处明显地实现不同的横向误差分布(图10)。这些结果表明,在相同的稳态假设和控制体系结构下,神经网络模型比基于物理的模型具有更高的模型保真度。也就是说,控制器满足本课程所要求的性能基准。

图7

图8

图9

图10

然而,数据驱动模型的真正功能不仅仅是提供与基于物理的方法相当的性能。该神经网络模型还具有融合高阶动态效应和学习不同路面车辆行为的潜力。为了确定研究人员所学习的模型(图6)是否显示了这些特性,研究人员在另外两项研究中检验了包含高保真度车辆动力学建模和多个表面摩擦值的预测。

相对于简化的基于物理的模型,为了证明网络的建模能力,研究人员使用不同保真度的动态模型来生成基于统一随机控制策略的训练数据。这些数据既用于训练网络,又用于为基于物理的模型确定最合适的参数,以便比较它们的预测能力。在第一次比较中,基于物理的模型本身生成数据,因此生成仿真数据的基于物理的模型与学习到的基于物理的模型之间没有模型失配。在这种情况下,没有错误匹配(图11),基于物理的模型明显优于神经网络模型,恢复了用于仿真的参数集。这是可以理解的,因为基于物理的模型代表数据背后的真实模型形式,而神经网络试图学习一个近似模型。

图11

然而,当不同保真度的模型生成训练数据时,情况发生了变化。研究人员使用基于物理的模型生成模拟数据,这些模型经过增强,包括纵向重量转移、轮胎松弛长度和多个路面摩擦值的影响(图11)。当数据拟合到简单的基于物理的模型时,模型错误匹配的这些附加效应导致了参数值的偏置。研究人员发现,在所有这些模型失配的情况下,神经网络模型在预测方面都优于基于物理的模型(图11)。此外,研究人员发现这些结果扩展到仿真数据(图12)。这些结果与用于设计神经网络预测模型的物理见解是一致的。例如,在学习轮胎松弛效应时,网络能够通过包含多个状态和输入延迟阶段来捕捉变化的滑移角动力学,而基于物理的模型仅使用当前输入和状态来预测车辆的动力学。

图12

基于神经网络在模拟中捕捉大量动态的能力,我们设计了一个额外的研究来评估模型在真实条件下对不同路面进行预测的能力。为此,我们使用Volkswagen GTI平台收集了手动驱动和自动数据。此外,我们还收集了干沥青上的高摩擦驱动和冰雪上的低摩擦驱动的数据。为了说明神经网络在低摩擦和高摩擦条件下学习动力学模型的能力,我们分别对每种情况分别训练和验证了模型(图13)。结果表明,在高摩擦和低摩擦情况下,神经网络结构都优于基于物理的模型。这两种情况的数据可以进一步结合起来,用于训练单一的神经网络和基于物理的模型。我们发现,这导致基于物理模型的训练和测试误差最大,原因是它无法捕捉两种不同的摩擦条件,如图13所示。识别出的基于物理的模型特征近似地表示了路面的平均状态,而神经网络模型的隐藏节点能够隐式地表示和应用不同的条件。结果表明,该神经网络在训练和测试方面均优于基于物理的模型一个数量级以上。这些结果表明,神经网络模型对混合路面和孤立路面数据均具有较好的预测性能,这一特性也可以推广到图14所示的空载试验数据。

图13

图14

实验结论

结果表明,在适当的模型下,一个简单的前馈反馈控制器可以在车辆摩擦能力极限下提供路径跟踪性能,其摩擦利用率可与有经验的人类赛车手相媲美。此外,我们的可行性研究表明,神经网络可以为这种方法提供必要的模型,实现比简单但经过仔细调优的静态物理模型更好的性能。最值得注意的是,这样的模型可以预测不同摩擦表面的性能,而无需显式地识别摩擦,并在考虑高保真度车辆动力学特性时显示出鲁棒性。实验结果表明,这种神经网络结构是自动车辆动力学模型的有效选择,值得进一步研究。

将跟踪控制器(如本文所示的控制器)与人类性能进行基准测试是一项挑战。从路径离散的水平可以看出,人类驾驶员并没有从精确的路径跟踪的角度来表述这个问题。相反,人类驾驶员倾向于在特定的点(比如弯道的顶点)上锚定想要的路径,并专注于将汽车推到摩擦极限。由于人类驾驶员的方法与典型的自动化车辆体系结构有根本的不同,因此分段时间似乎是这两种方法中最公平的比较。人类和已确定的轨道都是为了尽量缩短时间而运行的。考虑到分段时间对摩擦利用的极端敏感性,我们可以从可比时间推断出可比的摩擦利用。

实验结论 此外,虽然我们的业余赛车手速度很快,但专业车手的速度更快,这意味着使用摩擦的能力更强。因此,我们已经证明了可以与高级人员相媲美的能力,但是我们还没有证明可以超越高级人员的性能。要做到这一点,十有可能需要采取一些人类驾驶员愿意偏离路线的做法,以便更充分地利用摩擦力,减少时间。

比较了神经网络模型和基于物理的模型的控制性能,结果表明,采用神经网络模型的控制器在选择的测试路径上具有较好的路径跟踪性能。采用基于物理模型的控制器获得了较大的横向误差,在转弯过程中工作在50厘米左右。然而,在典型的2.7 - 3.6 m车道宽度和典型的2 m车道宽度的基础上,即使在摩擦极限下,两种控制器也会使车辆保持在车道边界内。这条道路的转弯速度不超过26英里每小时,所以这个实验反映了一个合理的城市或郊区驾驶的紧急机动模型。虽然在部署前还需要与其他机动进行进一步的验证,但这些结果证明了神经网络方法在极限条件下用于车辆控制的可行性。在使用神经网络模型时,控制器的前馈计算只使用了模型状态空间的一小部分(此时车辆处于稳态),而神经网络模型具有学习瞬态动力学效应的能力,预测误差表明了这一点。因此,在这种特殊的控制结构中,还没有实现神经网络控制的真正潜力。此外,通过对神经网络模型进行稳态假设来生成命令,必须控制网络的状态历史。前馈控制器没有充分利用神经网络的能力来同时估计和预测可变摩擦面。其他控制结构,如模型预测控制,可以利用网络的估计能力,提供了一种简单的方法,把同时进行的估计和控制结合起来。同样,也可以使用更复杂的物理模型或在线估计参数。但是,这一系列的神经网络模型和传统模型、以及人类驾驶的对比,是目前最清晰的对比基准。研究人员也表示,还需要进一步的研究,来确定不同的条件下的神经网络结构的正确编码。

微信公众号微信公众号