欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019103711402
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
专利领域: 测量;测试
更新日期:2023-10-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种限制性骑行路径规划方法,其特征在于,限制性骑行路径规划装置包括:主机电路和从机电路,所述主机电路和所述从机电路通过无线通信连接;所述主机电路包括主机控制器、定位接收器、记录设备,所述主机控制器分别与所述定位接收器和所述记录设备连接;所述从机电路包括从机控制器、交互输入设备、交互显示设备,所述从机控制器分别与所述交互输入设备和所述交互显示设备连接;所述定位接收器用于定位帧数据中的经度数据和纬度数据,并对各个路径点进行标记;所述记录设备用于记录和存储位置数据;所述交互输入设备用于输入骑行目的地;所述交互显示设备用于显示用户的实时位置和骑行路径;

所述方法包括:

确定预定区域内的各个路径点,所述路径点为至少两条道路的交汇点;

采集各个路径点的经纬度数据,记录各个路径点的海拔高度,对每个路径点预设风景评分,将每个路径点的经纬度数据、海拔高度、风景评分对应存储;

接收用户选择的起点和终点,对于每个行驶路段,获取同时间段内GPS数据中其他骑行者的所有骑行路径,确定出起点与终点之间的所有待选路径集合,所述待选路径集合包括有向路段集、每条待选路径的最大海拔差集和每条待选路径的综合风景评分集;

接收用户选择的骑行模式,所述骑行模式包括最短距离模式、风景最优模式、锻炼身体模式;

若用户选择的骑行模式为所述最短距离模式,则通过约束深度强化学习算法确定出对骑行模式对应的目标路径,包括:待选路径集合W中包括所有路径点组成的路径点集E和有向路径集A,用户的起点位置ei为路径点集E中的第i个路径点,将用户的起点位置ei的状态特征表示为s(ei)=[xi,yi,xD,yD],xi表示起点的经度,yi表示起点的纬度,xD表示终点的经度,yD表示终点的纬度;起点位置ei到终点的骑行时间用Q(s(ei))表示,将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei));

用户在待选路径集合G中所在路径点ei+n∈E,ei+n表示在起点位置ei后的第n个路径点,与起点位置ei相连接的所有路段ai,j组成起点位置ei的有向路径集A(ei);奖励函数r(ei,ai,i+1)表示用户在起点位置ei选择路段ai,i+1的骑行时间Q(s(ei));根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示终点之前所经过的最后一个路口,即路径点集E中的第k个路径点;

当完成一次求解,Q值发生更新,将求解中用户在起点位置ei以及之后经过的每个路径点表示为[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P中;当每次完成成功求解时,计算成功求解中每个起点位置ei到终点位置的累积折减收益G(hi:k);定义节点记忆N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元组s(ei),q(ei)存储起点位置ei的状态特征和起点到终点的最短骑行时间;

采用深度Q-learning算法,神经网路的训练通过最小化起点位置ei到终点的最短骑行时间q(ei)和起点位置ei到终点的骑行时间估计值Q(s(ei))误差平方和,即其中θ为神经网络权重系数;

采用ε贪婪策略,以ε概率选择当前最佳策略,1-ε概率随机选择策略,基于深度Q-learning算法,结合待选路径集合W,选择对应最短距离模式的路径,具体步骤包括:输入W=(E,A);

初始化节点记忆N,循环执行初始化Q值及神经网络权重系数θ,嵌套循环1至k,在起点位置ei用户满足交通规则时,采用ε贪婪策略选择和起点位置相连的路段ai,i+1;

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P,直到最后一个路径点ek和终点eD重合结束循环;

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k),并更新节点记忆N;

使用梯度下降更新θ,以最小化[(q(ei)-Q(s(ei),θ))]2,输出贪婪策略ai,i+1=π(ei),得到所选择的一个路段,到达终点后,所有选择的路段组成的路径即与最短距离模式对应的路径;

若用户选择的骑行模式为所述风景最优模式,则通过约束深度强化学习算法确定出对骑行模式对应的目标路径,包括:根据骑行经验设定风景评分初始值g0,待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的综合风景评分集g,用户的起点位置ei为路径点集E中的第i个路径点,将用户的起点位置ei的状态特征表示为s(ei)=[xi,yi,xD,yD],xi表示起点的经度,yi表示起点的纬度,xD表示终点的经度,yD表示终点的纬度;起点位置ei到终点的骑行时间用Q(s(ei))表示,将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei));

用户在待选路径集合G中所在路径点ei+n∈E,ei+n表示在起点位置ei后的第n个路径点,与起点位置ei相连接的所有路段ai,j组成起点位置ei的有向路径集A(ei);奖励函数r(ei,ai,i+1)表示用户在起点位置ei选择路段ai,i+1的骑行时间Q(s(ei));根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示终点之前所经过的最后一个路口,即路径点集E中的第k个路径点;

当完成一次求解,Q值发生更新,将求解中用户在起点位置ei以及之后经过的每个路径点表示为[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P中;当每次完成成功求解时,计算成功求解中每个起点位置ei到终点位置的累积折减收益G(hi:k);定义节点记忆N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元组s(ei),q(ei)存储起点位置ei的状态特征和起点到终点的最短骑行时间;

采用深度Q-learning算法,神经网路的训练通过最小化起点位置ei到终点的最短骑行时间q(ei)和起点位置ei到终点的骑行时间估计值Q(s(ei))误差平方和,即其中θ为神经网络权重系数;

采用ε贪婪策略,以ε概率选择当前最佳策略,1-ε概率随机选择策略,基于深度Q-learning算法,结合待选路径集合W,选择对应风景最优模式的路径,具体步骤包括:输入W=(E,A,g);

初始化节点记忆N,循环执行初始化Q值及神经网络权重系数θ,嵌套循环1至k,在起点位置ei用户满足交通规则时,采用ε贪婪策略选择和起点位置相连的路段ai,i+1;

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P,直到最后一个路径点ek和终点eD重合结束循环;

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k),并更新节点记忆N;

使用梯度下降更新θ,以最小化 输出贪婪策略ai,i+1=π(ei),得到所选择的一个路段,到达终点后,所有选择的路段组成的路径即与风景最优模式对应的路径;

若用户选择的骑行模式为所述锻炼身体模式,则通过约束深度强化学习算法确定出对骑行模式对应的目标路径,包括:设每条待选路径的最低点el海拔为Zl,最高点eh海拔为Zh,海拔差最大值为z,待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的最大海拔差集Z,用户的起点位置ei为路径点集E中的第i个路径点,将用户的起点位置ei的状态特征表示为s(ei)=[xi,yi,xD,yD],xi表示起点的经度,yi表示起点的纬度,xD表示终点的经度,yD表示终点的纬度;起点位置ei到终点的骑行时间用Q(s(ei))表示,将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei));

用户在待选路径集合G中所在路径点ei+n∈E,ei+n表示在起点位置ei后的第n个路径点,与起点位置ei相连接的所有路段ai,j组成起点位置ei的有向路径集A(ei);奖励函数r(ei,ai,i+1)表示用户在起点位置ei选择路段ai,i+1的骑行时间Q(s(ei));根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解:hi:k=ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek,ek表示终点之前所经过的最后一个路口,即路径点集E中的第k个路径点;

当完成一次求解,Q值发生更新,将求解中用户在起点位置ei以及之后经过的每个路径点表示为[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P中;当每次完成成功求解时,计算成功求解中每个起点位置ei到终点位置的累积折减收益G(hi:k);定义节点记忆N={[s(ei),q(ei)|ei∈E,q(ei)=minG(hi:k)]},二元组s(ei),q(ei)存储起点位置ei的状态特征和起点到终点的最短骑行时间;

采用深度Q-learning算法,神经网路的训练通过最小化起点位置ei到终点的最短骑行时间q(ei)和起点位置ei到终点的骑行时间估计值Q(s(ei))误差平方和,即其中θ为神经网络权重系数;

采用ε贪婪策略,以ε概率选择当前最佳策略,1-ε概率随机选择策略,基于深度Q-learning算法,结合待选路径集合W,选择对应锻炼身体模式的路径,具体步骤包括:输入W=(E,A,Z);

初始化节点记忆N,循环执行初始化Q值及神经网络权重系数θ,嵌套循环1至k,在起点位置ei用户满足交通规则时,采用ε贪婪策略选择和起点位置相连的路段ai,i+1;

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解,并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P,直到最后一个路径点ek和终点eD重合结束循环;

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k),并更新节点记忆N;

使用梯度下降更新θ,以最小化 输出贪婪策略ai,i+1=π(ei),得到所

选择的一个路段,到达终点后,所有选择的路段组成的路径即与锻炼身体模式对应的路径。