1.一种基于特征权值混合朴素贝叶斯模型的异常检测方法,其特征在于:包括离线建模阶段和在线检测阶段;
离线建模阶段:将历史数据划分为连续变量集和二值变量集,对连续变量构建辅助二值变量,将混合变量的相关性刻画进行统一,给与类别相关程度越大的变量分配越大的权值,构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型,得到数据标签;
离线建模阶段包括如下步骤:
步骤1.1:包含n个采样样本的历史数据集 其中i表示采样时间,X为历史数据,y为对应的数据标签,Xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,
2,...,K},K为X的总类别数,Xi包含p维特征, 表示实数域,将X根据连续变量和二值变量的特征划分为Xc和Xt,连续变量集Xc包含p1个特征,二值变量集Xt包含p2个特征;
步骤1.2:当xj∈Xc时假设其服从高斯分布:其中xj表示Xc的第j个变量,k为yi的具体取值,Pc(xj|y=k)为连续变量的条件概率密度函数,μkj为第j个变量标签为k的所有历史数据的均值,σkj为第j个变量标签为k的所有历史数据的标准差;
步骤1.3:当xj∈Xt时假设其服从伯努利分布:其中xj为Xt的第j个变量,Pt(xj|y=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.4:计算连续变量的均值:
其中πik=1{yi=k},xij为xj的第i时刻的值;
步骤1.5:计算连续变量的标准差:
步骤1.6:计算先验概率
步骤1.7:计算响应函数
步骤1.8:假设 对1≤k≤K‑1按公式(7)进行处理:其中取ξ=0.000001,k表示类别数,取值为{1,2,...,K},当k=K时,步骤1.9:假设 对1≤k≤K‑1按公式(9)进行处理,当k=K时,
步骤1.10:当xj∈Xc时,针对xj:{x1j,x2j,...,xij,...,xnj}构造辅助二值变量x′j:{x′1j,x′2j,...,x′ij,...,x′nj},其中x′ij为x′j第i个时刻的值,xij为xj第i个时刻的值,步骤1.11:对变量xj计算如下的概率,若xj为连续变量则用其对应的辅助二值变量代替:其中 为xij的取非运算,即
步骤1.12:对变量xj和xj′计算如下的中间参数 和 若xj或者xj′为连续变量则用其对应的辅助二值变量代替:步骤1.13:对变量xj和xj′计算如下的概率,若xj或者xj′为连续变量则用其对应的辅助二值变量代替:步骤1.14:计算变量xj和xj′之间的互信息MI(xj,xj′),若xj或者xj′为连续变量则用其对应的辅助二值变量代替:步骤1.15:计算变量xj和类别y之间的互信息MI(xj,y),若xj为连续变量则用其对应的辅助二值变量代替:步骤1.16:计算第j个变量的相关指数CIj:步骤1.17:对相关指数CIj进行如下处理得到第j个变量的特征权值FWj,对特征权值FWj进行归一化处理使其满足(24):步骤1.18:建立如下的模型,得到数据标签:其中P(y=k|X)为已知X的条件下y=k的概率,y为P(y=k|X)取最大值时k的值,为采样数据的增广向量, 为由响应函数、先验概率和特征权值构造的向量,φk为由连续变量的分布概率和权值的构造值;
T
其中[·]表示转置运算;
在线检测阶段:对新采样数据构造 获得新采样数据的预测工况类别,将预测工况类别与数据标签比较,判断是否发生故障;
步骤2.1:对于新采样数据Xnew构造
步骤2.2:对每一个k计算 代入步骤1.18中建立的模型即为新采样数据的预测工况类别;
步骤2.3:将预测工况类别与步骤1得到的数据标签比较,若预测工况类别与正常数据标签相同则认定为正常,若预测工况类别与故障数据标签一致,则认为发生故障。