清华大学：强化学习介绍及自动驾驶汽车应用

时间：2021-09-16 01:52:18

▼更多精彩推荐，请关注我们▼

强化学习是自动控制与统计学习的一类典型融合手段，近年取得了令人瞩目的成就，是进一步提升自动驾驶汽车感知智能性和决控智能性的重要技术途径。

以自动驾驶汽车为例，该类方法不使用标签化的驾驶行为数据，通过汽车与道路环境的不断交互，获得奖励信号（如安全性、舒适性、节能性和通畅性等评价指标），以学习最优的自动驾驶策略。课题组将强化学习分解为四个构成元素：环境、状态-动作对、值函数、策略，按照最优策略的求解方式，分为Indirect RL（间接法）和Direct RL（直接法）两种方法，以更好地适应于自动驾驶汽车的算法开发与工程应用。

间接法是通过求解贝尔曼方程（离散系统）和HJB方程（连续系统）获得最优策略。此类方法以不动点迭代（fixed point iteration）为基础，主要方法可分为policy iteration或value iteration。而直接法则直接将RL构造为某一最优控制问题，并对策略进行参数化，通过求解性能指标相对于策略参数的梯度，进行策略参数的迭代更新。这两种RL方法最终可以统一到Actor-Critic的框架。所包含的Actor用于在驾驶环境中探索收集训练样本，并更新策略，Critic用于评价当前策略的优劣，更新值函数。

为了解决强化学习对计算资源要求较高的难题，选择合适的硬件对提升算法效率至关重要。常用的计算硬件有：ASIC、FPGA、GPU、CPU。其中，FPGA具有可编程、功耗低、计算速度快等优点，是承载算法的理想选择。同时课题组对于多车协同控制问题的求解进行了研究，提出了通过ADMM（交替乘子法）开展时空并行求解的算法，将目前的平方级求解复杂度降低为线性级复杂度，为大规模RL的求解奠定了基础。

另外，目前用于RL训练的自动驾驶仿真平台还是比较缺乏。已有Torcs、Carla等，主要利用前向摄像头图像等作为输入，由用户自己设定回报函数。

来源：智能驾驶实验室

圈尽导航天下事

圈不住你我的梦想

长按识别下方二维码，关注我们！

微信号

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。