欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017107714754
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于数据并行的时间序列分析方法,其特征在于:其步骤如下:a.输入分析时间序列数据所要使用的分析算法;

b.在指定分析算法后,根据待分析的时间序列数据的周期特性,在分布式集群的主节点上,生成分析计算时所需要的并行参数;

所述步骤b具体包括如下步骤:

(b1)根据输入的时间序列数据文件,在满足能够保留与输入的原始时间序列数据一致的周期特性和小于分布式集群中单节点分析运算所能容纳的最大规模两个条件下,对该时间序列数据文件进行取样,在分布式集群的主节点上生成时间序列样本;

(b2)根据给定的分析算法,对时间序列样本的整体进行分析,得到串行分析结果;

(b3)对于给定的分析算法,设定不同的分段长度和冗余范围,对时间序列样本进行多次迭代分析,即通过分段、冗余、分析、去除冗余以及合成分段的操作得到多次模拟并行分析结果;

(b4)比较多次模拟并行分析结果与串行分析结果之间的相似程度,将相似程度高于阈值范围的单个或多个结果对应的冗余范围作为候选项,再在候选项中选择相似程度最高的结果所对应的冗余范围作为分析计算时所需的第一并行参数;

(b5)根据分析结果的相似程度,选择符合阈值范围的单个或多个分段长度作为候选值,再根据分段长度对分布式集群上运行分析算法的时空复杂度影响,在候选值中确定最优的分段长度,作为分析计算时所需的第二并行参数;

c.根据输入的并行参数,在分布式集群的所有节点上,对时间序列数据进行分析计算,生成分析结果;

所述步骤c具体包括如下步骤:

(c1)根据并行参数,在分布式集群上对输入的原始时间序列数据进行划分和冗余,在分布式集群的各个节点上形成并行单元;

(c2)利用输入的分析算法,在分布式集群上对各个并行单元进行分析运算,得到各个子序列所形成的并行单元的分析结果;

(c3)根据并行参数和对应子序列划分的顺序,去除各个并行单元的分析结果中的冗余并进行拼接,生成最终的分析结果,并对其进行保存;

子步骤(b4)和子步骤(b5)在度量分析结果的相似程度时,衡量标准为皮尔逊相关系数,定义相关系数ρxy:

式中,xn和yn是两个能量有限的确定性信号, 当xn=yn时,ρxy=1表明两个信号完全相等;若ρxy=0,则表明它们完全无关; 如果两个信号有某种程度上的相似,则ρxy在0到1之间取值;

多次迭代的模拟分析过程中,分析结果的相似程度取得最高值时所采用的分段长度作为最小分段长度,该值作为上述迭代分析的初始条件;

获取最小分段长度的具体方法如下:对于总长度为m的待分析时间序列X={x1,x2...xm},被分割成m/LS个长度为LS的非重叠子序列,每个子序列分别向左右两侧各取长度为LR的冗余,由此形成m/LS个长度为n的并行单元,其中n=2LR+LS,定义采用数据并行的时空代价CostT(LS):式中,T(n)是指长度为n的单个并行单元在利用分析算法计算时的时间复杂度;T(m)是指总长度为m的时间序列在利用相同的分析算法计算时的时间复杂度;C为常数,是除计算外的其他时间开销,由时间代价定义式计算得到的时间代价取值范围0<CostT(LS)<1;

在长度为n的并行单元中,非重叠子序列的长度为LS,定义采用数据并行的空间代价:式中,n/LS是并行单元长度与分段长度的比值,代表采用冗余策略后增加的空间代价,在序列分割时非重叠子序列长度应大于用于保护其周期性的冗余长度LR<LS,可得1<n/LS<3,将n/LS进行归一化,即0<CostH(LS)<1;

分段长度LS对序列分析框架的时空优化的子目标问题通过增加权重,对时间代价和空间代价进行协调和折中处理,定义采用数据并行的时空代价为Cost(LS)=ωCostT(LS)+(1‑ω)CostH(LS)式中,ω是用于调节时间代价和空间代价在时空代价中的权重的因子0<ω<1.时空代价Cost(LS)的取值范围是[0,1];

采用两个目标函数加权相加的形式,将多目标优化问题转换为单目标优化问题,并定义时空代价最小化的目标函数,如式:min Cost(LS)=ωCostT(LS)+(1‑ω)CostH(LS)当目标函数取得最小值时,则认为取得空间利用效率与时间利用效率上的平衡状态,此时的分段长度作为最优分段长度。

2.如权利要求1所述的基于数据并行的时间序列分析方法,其特征在于:所述子步骤(c1)具体为:

根据并行参数中的分段长度,在分布式集群上对输入的原始时间序列数据划分为比原始时间序列长度更小的子序列,根据并行参数中的冗余范围,在分布式集群上对划分得到的全部子序列进行冗余操作,经过处理的子序列形成各个独立的并行单元,在进行冗余操作时,根据并行参数中的冗余范围,对生成的子序列向两边求取冗余,冗余部分在数值上均与原始序列的对应部分保持一致,其中对第一个子序列和最后一个子序列只向数据内部求取冗余。

3.如权利要求2所述的基于数据并行的时间序列分析方法,其特征在于:所述子步骤(c3)具体为:

拼接各个并行单元的分析结果时,首先按照并行参数去除各个并行单元的冗余,接着按照对应的并行单元生成时的顺序进行合成。

4.用于权利要求1‑3中任意一条权利要求的基于数据并行的时间序列分析系统,其特征在于:包括依次首尾相连的数据存储模块、参数提取模块、并行分析模块以及与数据存储模块、参数提取模块、并行分析模块分别相连的框架扩展模块;

数据存储模块用于在分布式集群中存储基于数据并行的时间序列分析方法所需的输入数据以及经该方法生成的输出数据,提供数据读取和写入的接口,在分布式集群中为待存储的数据分配资源;

参数提取模块用于提取并行分析模块所需要的算法参数和并行参数;

并行分析模块用于对输入的时间序列数据进行分析计算;

框架扩展模块用于根据不同的分布式计算引擎,选择对应的编程框架和存储体系以实现数据存储模块、参数提取模块、并行分析模块,根据计算引擎提供的应用程序接口调用支持时间序列分析的第三方算法库和接入其他组件和模块以实现算法的集成和扩展。

5.如权利要求4所述的基于数据并行的时间序列分析系统,其特征在于:所述参数提取模块包括算法参数提取子模块和并行参数提取子模块;

算法参数提取子模块用于提取并行分析模块中给定的分析算法所需要的参数;

并行参数提取子模块用于提取并行分析模块中进行数据并行计算时所需要的分段长度和冗余范围。

6.如权利要求4所述的基于数据并行的时间序列分析系统,其特征在于:所述并行分析模块包括分段生成子模块、计算子模块和分段合成子模块;

分段生成子模块用于根据并行参数,对输入的时间序列数据进行分段和冗余操作,生成并行单元;

计算子模块用于在分布式集群中利用多个计算节点,同时对多个并行单元进行分析计算,为每一个并行单元生成对应的分析结果;

分段合成子模块用于根据并行参数,对分析结果按照对应的并行单元生成时的顺序在去除冗余后进行拼接合成,形成整体的最终分解结果。