1.一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:包括以下步骤:(1)输入有序数据集;
(2)选定聚类数目,对有序数据集进行初始分割,获得各数据段的初始聚类中心和伪边界以及样本点的初始隶属度矩阵;
(3)构造目标函数,在满足严格序列性约束的前提下,逐点对各数据段中前半段和后半段内样本点进行重新划分,并计算样本点重新划分后的隶属度,如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,并更新该样本点的隶属度以及各数据段的聚类中心,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分;
(4)迭代进行步骤(3)直至没有任何样本点的重新划分被接收;
(5)输出最终的隶属度矩阵以及各数据段的聚类中心,完成序列数据分割。
2.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(1)中有序数据集为X={X1,X2,…,Xn},由依序产生的n个样本点Xj,j=
1,…,n构成,样本点的形式可以是点、向量、矩阵或者高阶张量数据。
3.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(2)中选定的聚类数目为c,对有序数据集X进行初始分割的具体过程如下:
21.利用式(1)计算序列数据的累积长度Lj:
Lj=Lj-1+||Xj-Xj-1|| (1)
式中j(j=2,…,n)为样本点的索引,L1=0,||Xj-Xj-1||表示样本点Xj与样本点Xj-1之间的欧几里得距离;
22.计算c个数据段的平均长度:λ=Ln/c;
23.设定第一个数据段的伪左边界为b1=1;
24.对于第i(i=2,…,c)个数据段,依次比较λ(i-1)与Lj(j=1,…,n)的大小,找到第一个满足λ(i-1)≤Lj的j,将第i个数据段的伪左边界设定为bi=j;
25.利用式(2)确定第j个样本点Xj在第i个数据段中的初始隶属度uij(0≤uij≤1):各样本点的隶属度需满足下列条件:
26.计算各数据段的初始聚类中心mi:
27.所有样本点的隶属度uij构成c×n维的初始隶属度矩阵U。
4.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中的目标函数为:式中Ji(ui,mi)为对应于第i(i=1,…,c)个数据段的子目标函数,ui为隶属度矩阵U的第i行,mi为第i个数据段的聚类中心,uij为样本Xj(j=1,…,n)在第i个数据段的隶属度,dij=||Xj-mi||为样本Xj与第i个聚类中心mi之间的欧几里德距离,s∈[1,∞)是一个加权指数。
5.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中严格序列性约束是指在对各数据段内的样本点逐点进行重新划分时,各数据段中前半段内从段首开始逐点重新划分,每个样本点只能重新划分到本数据段及其前一数据段,而各数据段中后半段内从段尾开始逐点重新划分,每个样本点只能重新划分到本数据段及其后一数据段。
6.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中第i个数据段中前半段内的样本点是指样本索引j满足j∈[bi,bi+ni/2)的样本点,其中bi为第i个数据段的伪左边界,ni为第i个数据段内样本点的伪数目,对于i=1到c-1,ni的计算公式为:ni=bi+1-bi;对于i=c,nc的计算公式为:nc=n-bc,式中n为样本点的总数;第i(i
7.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中样本点重新划分后隶属度的计算方法如下:假设第j(j=1,…,n)个样本点Xj当前的隶属度为uij,与当前各数据段聚类中心mi(i=1,…,c)间的欧几里德距离为dij=||Xj-mi||,样本点Xj按照如下三种情况进行重新划分:
31.如果Xj位于第1个数据段的前半段或第c个数据段的后半段,则Xj不会被重新划分;
32.如果Xj位于第i(i≠1)个数据段的前半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度 为:式中s为式(3)中定义的加权指数;
33.如果Xj位于第i(i≠c)个数据段的后半段,则重新划分后Xj在第k(k=1,…,c)个数据段内的隶属度 为:式中s为式(3)中定义的加权指数。
8.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中由样本点隶属度变化所引起目标函数的变化量的计算方法如下:由样本点Xj隶属度变化所引起的各数据段的子目标函数Ji(ui,mi)(i=1,…,c)的变化量ΔJij为:式中s为式(3)中定义的加权指数,uij为Xj重新划分之前在第i个数据段的隶属度,为Xj重新划分之后在第i个数据段的隶属度。
9.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(3)中如果由该样本点隶属度变化所引起的目标函数变化为负,接收这一重新划分,继续重新划分当前数据段的下一个样本点,否则拒绝这一重新划分,跳转到下一数据段逐点进行重新划分,具体为:当Xj按照上述第②种情况进行划分时,如果由式(4)计算得到的第i-1个和第i个数据段的子目标函数变化量之和满足ΔJ(i-1)j+ΔJij≥0,拒绝Xj的重新划分;如果ΔJ(i-1)j+ΔJij<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(6)更新各数据段的聚类中心 (i=1,…,c)和第i个数据段的伪左边界当Xj按照上述第③种情况进行划分时,如果由式(4)计算得到的第i个和第i+1个数据段的子目标函数变化量之和ΔJij+ΔJ(i+1)j≥0,拒绝Xj的重新划分;如果ΔJij+ΔJ(i+1)j<0,则接受Xj的重新划分以及Xj新的隶属度,并利用式(5)和式(7)更新各数据段的聚类中心 (i=1,…,c)和第i+1个数据段的伪左边界
10.如权利要求1所述的一种用于序列数据分割的有序模糊C均值聚类方法,其特征在于:所述步骤(5)中最终的隶属度矩阵以及各数据段的聚类中心是指反复迭代步骤(3)直至没有任何样本点的重新划分被接收之前最后一步迭代所得的隶属度矩阵和各数据段的聚类中心。