知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种限制性骑行路径规划装置及方法

面议

专利号： 2019103711402

申请人：江南大学

专利类型：发明专利

专利状态：已下证

专利领域：测量；测试

更新日期：2023-10-10

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种限制性骑行路径规划方法，其特征在于，限制性骑行路径规划装置包括：主机电路和从机电路，所述主机电路和所述从机电路通过无线通信连接；所述主机电路包括主机控制器、定位接收器、记录设备，所述主机控制器分别与所述定位接收器和所述记录设备连接；所述从机电路包括从机控制器、交互输入设备、交互显示设备，所述从机控制器分别与所述交互输入设备和所述交互显示设备连接；所述定位接收器用于定位帧数据中的经度数据和纬度数据，并对各个路径点进行标记；所述记录设备用于记录和存储位置数据；所述交互输入设备用于输入骑行目的地；所述交互显示设备用于显示用户的实时位置和骑行路径；

所述方法包括：

确定预定区域内的各个路径点，所述路径点为至少两条道路的交汇点；

采集各个路径点的经纬度数据，记录各个路径点的海拔高度，对每个路径点预设风景评分，将每个路径点的经纬度数据、海拔高度、风景评分对应存储；

接收用户选择的起点和终点，对于每个行驶路段，获取同时间段内GPS数据中其他骑行者的所有骑行路径，确定出起点与终点之间的所有待选路径集合，所述待选路径集合包括有向路段集、每条待选路径的最大海拔差集和每条待选路径的综合风景评分集；

接收用户选择的骑行模式，所述骑行模式包括最短距离模式、风景最优模式、锻炼身体模式；

若用户选择的骑行模式为所述最短距离模式，则通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：待选路径集合W中包括所有路径点组成的路径点集E和有向路径集A，用户的起点位置ei为路径点集E中的第i个路径点，将用户的起点位置ei的状态特征表示为s(ei)＝[xi,yi,xD,yD]，xi表示起点的经度，yi表示起点的纬度，xD表示终点的经度，yD表示终点的纬度；起点位置ei到终点的骑行时间用Q(s(ei))表示，将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei))；

用户在待选路径集合G中所在路径点ei+n∈E，ei+n表示在起点位置ei后的第n个路径点，与起点位置ei相连接的所有路段ai,j组成起点位置ei的有向路径集A(ei)；奖励函数r(ei,ai,i+1)表示用户在起点位置ei选择路段ai,i+1的骑行时间Q(s(ei))；根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解：hi:k＝ei,ai,i+1,r(ei,ai,i+1),ei+1,ai+1,i+2,...,ek，ek表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；

当完成一次求解，Q值发生更新，将求解中用户在起点位置ei以及之后经过的每个路径点表示为[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置ei到终点位置的累积折减收益G(hi:k)；定义节点记忆N＝{[s(ei),q(ei)|ei∈E,q(ei)＝minG(hi:k)]}，二元组s(ei)，q(ei)存储起点位置ei的状态特征和起点到终点的最短骑行时间；

采用深度Q-learning算法，神经网路的训练通过最小化起点位置ei到终点的最短骑行时间q(ei)和起点位置ei到终点的骑行时间估计值Q(s(ei))误差平方和，即其中θ为神经网络权重系数；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应最短距离模式的路径，具体步骤包括：输入W＝(E,A)；

初始化节点记忆N，循环执行初始化Q值及神经网络权重系数θ，嵌套循环1至k，在起点位置ei用户满足交通规则时，采用ε贪婪策略选择和起点位置相连的路段ai,i+1；

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解，并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P，直到最后一个路径点ek和终点eD重合结束循环；

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k)，并更新节点记忆N；

使用梯度下降更新θ，以最小化[(q(ei)-Q(s(ei),θ))]2，输出贪婪策略ai,i+1＝π(ei)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与最短距离模式对应的路径；

若用户选择的骑行模式为所述风景最优模式，则通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：根据骑行经验设定风景评分初始值g0，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的综合风景评分集g，用户的起点位置ei为路径点集E中的第i个路径点，将用户的起点位置ei的状态特征表示为s(ei)＝[xi,yi,xD,yD]，xi表示起点的经度，yi表示起点的纬度，xD表示终点的经度，yD表示终点的纬度；起点位置ei到终点的骑行时间用Q(s(ei))表示，将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei))；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应风景最优模式的路径，具体步骤包括：输入W＝(E,A,g)；

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解，并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P，直到最后一个路径点ek和终点eD重合结束循环；

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k)，并更新节点记忆N；

使用梯度下降更新θ，以最小化输出贪婪策略ai,i+1＝π(ei)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与风景最优模式对应的路径；

若用户选择的骑行模式为所述锻炼身体模式，则通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：设每条待选路径的最低点el海拔为Zl，最高点eh海拔为Zh，海拔差最大值为z，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的最大海拔差集Z，用户的起点位置ei为路径点集E中的第i个路径点，将用户的起点位置ei的状态特征表示为s(ei)＝[xi,yi,xD,yD]，xi表示起点的经度，yi表示起点的纬度，xD表示终点的经度，yD表示终点的纬度；起点位置ei到终点的骑行时间用Q(s(ei))表示，将起点位置ei的状态特征s(ei)输入BP神经网络得到起点到终点的骑行时间Q(s(ei))；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应锻炼身体模式的路径，具体步骤包括：输入W＝(E,A,Z)；

将选择记录[s(ei),ai,i+1,r(ei,ai,i+1)]加入求解，并将记录[s(ei),ai,i+1,r(ei,ai,i+1),s(ei+1)]存储于求解记忆P，直到最后一个路径点ek和终点eD重合结束循环；

计算成功从起点到终点的路径中每个起点位置ei到终点的累积折减收益G(hi:k)，并更新节点记忆N；

使用梯度下降更新θ，以最小化输出贪婪策略ai,i+1＝π(ei)，得到所

选择的一个路段，到达终点后，所有选择的路段组成的路径即与锻炼身体模式对应的路径。