1.一种异常状态在线识别方法,用于实时在线检测高维数据流中的潜在异常点,包括步骤:
A.实时采集数据流中的数据元素,获得含有一定数据元素的高维数据样本集X,并对高维数据样本集X进行预处理;
B.运用基于角度分布的异常因子公式对集合X中的每一个数据元素进行分析,以此来获得集合X中每个数据元素的异常因子值;
C.根据每一个数据元素的异常因子值,以及设定的正常集阈值、边界集阈值划分集合X中的所有数据元素,即是将数据元素纳入正常集、边界集和异常集中的一种,从而构造出初始正常集、边界集;
D.采集数据流中的最新数据元素X(i),与正常集、边界集建立小规模数据流型计算集;
E.运用基于角度分布的异常因子公式对最新数据元素X(i)进行分析,以此来获得该数据元素的异常因子值;
F.根据最新数据元素的异常因子值,以及设定的正常集阈值、边界集阈值将最新数据元素X(i)纳入正常集、边界集中的一种,如果该数据元素为异常点,则将其纳入异常集O,并将其作为异常点输出;
G.实时检测正常集、边界集是否发生溢出,若发生溢出,则将正常集、边界集按先进先出(FIFO)方式进行更新;
H.跳转至步骤D,直至检测完所有数据元素。
2.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤A实时采集数据流中的数据元素,并把采集到的数据元素依次存储到数据集X,当数据集X中实时采集的数据个数达到上限后,对数据集X中的数据元素进行预处理,预处理包括对每个数据元素的物理或数学特征按顺序进行排列,并进行规范,简化处理。
3.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤B运用基于角度分布的异常因子公式对数据集X中的每一个数据元素进行运算分析,以此来获得数据集X中每一个数据元素对应的异常因子值。
4.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤C根据正常集阈值、边界集阈值,以及步骤B获得的异常因子值来划分数据集X中的每一个数据元素,将每一个数据元素的异常因子值分别与正常集阈值,边界集阈值进行比较,若该异常因子值大于等于正常集阈值,则把该数据元素纳入正常集;若该异常因子值小于正常集阈值并且大于等于边界集阈值,则把该数据元素纳入边界集;若该异常因子值满足小于正常集阈值,并且也满足小于边界集阈值,则把该数据元素纳入异常集,以此来获得初始正常样本集、边界样本集。
5.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤D为获得最新数据元素X(i)的异常因子值做准备,采集数据流中的最新数据元素X(i),并将该数据元素与步骤C获得的正常集、边界集组成小规模数据流型计算集。
6.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤E运用基于角度分布的异常因子公式对步骤D采集到的最新数据元素X(i)进行分析,以此来获得数据元素X(i)的异常因子值,分析该数据元素X(i)需要参考数据流型计算集中的正常点与边界点,基于角度分布的异常因子公式与步骤B中的角度分布异常因子公式一致。
7.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤F根据正常集阈值、边界集阈值,以及步骤E获得的数据元素X(i)的异常因子值来决定数据元素X(i)的归属,将数据元素X(i)的异常因子值分别与正常集阈值,边界集阈值进行比较,若该异常因子值大于等于正常集阈值,则把该数据元素纳入正常集;若该异常因子值介于正常集阈值与边界集阈值之间,则把该数据元素纳入边界集;若该异常因子值不仅满足小于正常集阈值,并且也满足小于边界集阈值,则把该数据元素纳入异常集,并将数据元素X(i)作为异常点输出。
8.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤G实时检测已建立的正常集、边界集是否发生溢出,只要正常集或者边界集中的其中一个发生溢出,则按先进先出方式(FIFO)更新已发生溢出的集合,以此来实现正常集、边界集的实时更新,解决大数据流的概念转移问题,从而保证异常状态在线识别方法在高维空间的检测精确度。
9.根据权利要求1所述一种异常状态在线识别方法,其特征在于:所述步骤H为实现数据流上异常状态的实时检测创造必要条件,通过步骤H返回到步骤D,循环步骤D至步骤H,实现对数据流的连续,实时检测。