1.一种OD客流预测方法,其特征在于,包括:基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及所述低维属性特征拼接得到多维目标输入属性;
利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能;
将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流;
所述ODFL值为OD对的客流量级大小的值;
所述基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合,包括:令 表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL值,则设ODFL的阈值为q,当yi≤q时,所述OD对为稀疏OD对;
将所有的稀疏OD对组成集合A;
所述挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征,包括:利用特征工程挖掘稀疏OD对的64种时间序列特征,其包括763维特征;具体包括,利用Python第三方库Tsfresh计算包含绝对能量值、一阶差分绝对和等64种时间序列特征,用于描述时间序列的波动性、不可预测性、周期性、平稳性和非线性;
分别计算特征向量与OD客流均值的pearson相关系数值;
Pearson相关系数的计算公式如下:
其中,xi和yi分别表示所选择的两个相关变量,和 分别表示所选择相关变量的平均值;
过滤相关系数值较小的特征;
将过滤后的特征映射到10维的低维空间,得到10维属性特征;
所述利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能,包括:获取若干OD对的不同预测时段的真实客流值;
将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
利用所述训练集训练LightGBM模型,更新LightGBM模型参数;
利用所述测试集测试LightGBM模型的有效性,直至测试集误差符合要求;
保存LightGBM模型;
所述将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流,包括:根据待预测时段确定邻近客流模式特征、日客流模式特征、周客流模式特征及时序特征;
将所述客流模式特征、时序特征及低维属性特征拼接得到19维目标输入属性;
将所述19维目标输入属性输入LightGBM模型中;
LightGBM模型输出待预测时段的客流值。
2.根据权利要求1所述的OD客流预测方法,其特征在于,所述过滤相关系数值较小的特征,包括:令系数值的阈值为ε,第j个特征的系数值为rj,当|rj|<ε时,所述特征为相关系数值较小的特征,删掉;
当|rj|≥ε时,所述特征为相关系数值较大的特征,保留。
3.根据权利要求1所述的OD客流预测方法,其特征在于,所述获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性,包括:分析邻近客流模式,获取预测时段的前3个时段客流特征,分别命名为recent1、recent2、recent3;
分析日客流模式,获取预测时段的前三日同一时段客流特征,分别命名为daily1、daily2、daily3;
分析周客流模式,获取预测时段的上一周同一日同一时段客流特征,分别命名为weekly1;
分析时序特征,获取预测时段为周内的第几天和一天内的第几个时段,分别命名为interval和day of week;
将OD对的低维属性特征命名为OD feature1、OD feature2、……、OD feature10;
将上述特征拼接为所述预测时段的19维目标输入属性。
4.一种OD客流预测装置,其特征在于,包括:稀疏OD对筛选模块:用于基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合;
特征工程模块:用于挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征;
输入属性构造模块:用于获取稀疏OD对的预测时段的邻近客流模式特征、日客流模式特征及周客流模式特征和时序特征,将所述邻近客流模式特征、日客流模式特征、周客流模式特征、时序特征及低维属性特征拼接得到多维目标输入属性;
训练模块:用于根据目标输入属性构造训练集和测试集,利用训练集对模型进行训练确定模型参数,再利用测试集测试模型;
预测模块:用于将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流;
所述ODFL值为OD对的客流量级大小的值;
所述基于历史OD客流数据计算若干OD对的ODFL值,根据ODFL值筛选出稀疏OD对的集合,包括:令 表示第i个OD对第k时段客流值,yi为第i个OD对的ODFL值,则设ODFL的阈值为q,当yi≤q时,所述OD对为稀疏OD对;
将所有的稀疏OD对组成集合A;
所述挖掘和过滤稀疏OD对的若干属性特征,并对所述属性特征进行降维,得到各稀疏OD对的低维属性特征,包括:利用特征工程挖掘稀疏OD对的64种时间序列特征,其包括763维特征;具体包括,利用Python第三方库Tsfresh计算包含绝对能量值、一阶差分绝对和等64种时间序列特征,用于描述时间序列的波动性、不可预测性、周期性、平稳性和非线性;
分别计算特征向量与OD客流均值的pearson相关系数值;
Pearson相关系数的计算公式如下:
其中,xi和yi分别表示所选择的两个相关变量,和 分别表示所选择相关变量的平均值;
过滤相关系数值较小的特征;
将过滤后的特征映射到10维的低维空间,得到10维属性特征;
所述利用所述目标输入属性构造训练集和测试集,利用所述训练集拟合模型,利用所述测试集测试模型泛化性能,包括:获取若干OD对的不同预测时段的真实客流值;
将若干OD对的不同预测时段的目标输入属性和真实客流值作为数据集;
将70%—80%的数据集划分为训练集,剩余的数据集作为测试集;
利用所述训练集训练LightGBM模型,更新LightGBM模型参数;
利用所述测试集测试LightGBM模型的有效性,直至测试集误差符合要求;
保存LightGBM模型;
所述将待预测时段的多维目标输入属性输入模型进行预测,输出所述待预测时段的OD客流,包括:根据待预测时段确定邻近客流模式特征、日客流模式特征、周客流模式特征及时序特征;
将所述客流模式特征、时序特征及低维属性特征拼接得到19维目标输入属性;
将所述19维目标输入属性输入LightGBM模型中;
LightGBM模型输出待预测时段的客流值。
5.一种OD客流预测设备,其特征在于,包括:存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述OD客流预测方法的步骤。
6.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述OD客流预测方法的步骤。