A Traffic Prediction Enabled Double Rewarded Value Iteration Network for Route Planning 李静林 2020-06-26 14:42 No Comment 1608次浏览 >2019年发表在IEEE TVT上,提出了一种基于双价值迭代网络的出行路线规划方法,利用交通环境中的驾驶轨迹数据进行驾驶行为的学习,并用于出行轨迹的引导,以提高轨迹规划的有效性。 [TOC] # **论文摘要** 有效的路线规划是提高运输效率的关键。通过利用对道路拓扑和交通趋势的深入了解,经验丰富的驾驶员(例如出租车驾驶员)通常可以找到接近最佳的路线。但是现有的在线路线规划服务几乎无法获得该领域的知识,因此它们仅根据当前的交通状况提供最快/最短的路线。这些看似最优的路线可能会吸引大量车辆,然后变得极为拥挤。为了解决此问题并实际提高运输效率,我们提出了一种双奖励价值迭代网络(Double VIN)来学习经验丰富驾驶者的驾驶决策,这些驾驶者会通过估计潜在交通趋势来选择最快的路线。 首先,按时间顺序从大规模的出租车轨迹中提取整体交通状况和驾驶者的路线选择决策。然后,本文训练一个长短期记忆(LSTM)网络来对交通趋势进行建模。 作为擅长于学习路径长期规划的模型,VIN可用于对从当前和预测未来的交通态势到驾驶者的路线决策动作这一策略功能进行建模。最后,我们在中国北京的真实路网结构和出租车轨迹上评估了我们提出模型的性能。实验结果表明,所提出的模型相比于其他模型能够达到更高的成功率和更短的通勤时间。 # **论文的核心算法** 论文提出的双价值迭代网络模型框架划分为四个模块,如图1所示: ![](http://iov.sicrc.cn/usr/uploads/2020/06/28559697.png) 1、数据预处理模块,需要出租车驾驶轨迹中提出实时交通态势、历史交通态势以及驾驶者决策。 2、预测模块,使用历史的交通态势信息输入LSTM网络中预测未来交通态势。 3、价值迭代网络模块,通过将实时的交通态势和驾驶者决策输入实时价值迭代网络,将未来的交通态势和驾驶者决策输入未来价值迭代网络,将它们网络的输出综合处理后得到价值图。 4、决策模块,通过输入出发点,根据价值图可以得到推荐路径。 模型的网络结构如下图,主要分为LSTM预测模块和双奖励价值迭代网络模块。 ![](http://iov.sicrc.cn/usr/uploads/2020/06/897671270.png) 在LSTM预测模块中使用两层LSTM和三层全连接层来得到预测的交通态势信息,在双奖励价值迭代网络模块对两个VIN模块经过K-1次迭代得到的输出进行加权求和,最后得到价值图。双奖励价值迭代网络框架图如下所示: ![](http://iov.sicrc.cn/usr/uploads/2020/06/1214264878.png) 在每个VIN模块中,从交通态势图中抽取8个方向的reward图,加入当前价值图和目的地表示图,通过卷积图获取9个动作的Q函数,然后通过max pooling得到当前VIN的价值图。双奖励价值迭代网络在最后一次迭代将两个VIN的输出加权求和得出最终的价值图,将实际的驾驶者决策作为标签进行学习。 # **对比分析** 我们使用北京市真实的驾驶轨迹来分析算法的性能。我们首先将北京市路网结构按照20×20网格结构划分,然后提取网格之间不同方向的通行时间作为交通态势信息。 我们首先对LSTM预测模块进行仿真分析,并且和高斯回归方法进行对比,可以看出LSTM在错误率和loss损失值显著小于高斯回归。 ![](http://iov.sicrc.cn/usr/uploads/2020/06/2382628313.png) 在预测模块,我们选择如下三个对比试验: 1) Dijkstra algorithm:使用交通态势图为驾驶者生成最短时间路径 2) Simple VIN network:将实时交通态势信息作为输入,通过价值迭代网络学习驾驶者决策来给出路径推荐 3) Gaussian Regression Algorithm:使用高斯回归算法来预测交通态势,然后通过双价值迭代网络生成路径。 ![](http://iov.sicrc.cn/usr/uploads/2020/06/4018319689.png) 从表中可以看出本文模型在top-1准确率,top-2准确率和节约时间率都高于其他三种方法,而且可以保证很高的成功率。 模型生成路径和实际路径如下图所示: ![](http://iov.sicrc.cn/usr/uploads/2020/06/105756720.png) 3种对比方法与所提出的模型生成路径如下图所示: ![](http://iov.sicrc.cn/usr/uploads/2020/06/2830633379.png) # **论文原文与实验代码** 论文引用:Li Jinglin, Fu Dawei, Yuan Quan, Zhang Haohan, Chen Kaihui, Yang Shu, Yang Fangchun. A Traffic Prediction Enabled Double Rewarded Value Iteration Network for Route Planning. IEEE Transactions on Vehicular Technology. 2019 68(5):4170-4181. 论文索引号:000459709500081 论文原文:[10.1109/TVT.2019.2893173](https://doi.org/10.1109/TVT.2019.2893173 "10.1109/TVT.2019.2893173") 论文代码:[code](https://sicrc.cn/svn/achieve/papers/2019_A_Traffic_Prediction_Enabled_Double_Rewarded_Value_Iteration_Network_for_Route_Planning "code")