1.用于神经网络训练的大数据特征清洗方法,其特征在于,该方法包括以下步骤:
获取风电机组运行过程中的各个数据点,得到待清洗数据集;
获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;
将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
根据各个类簇的异常程度对待清洗数据集进行数据清洗;
所述各个类簇的场景影响因子的获取步骤包括:
计算各个类簇特征点的横坐标与纵坐标之间的乘积,根据所得乘积得到各个类簇的影响参数;计算待清洗数据集中所有类簇的影响参数的累加和,计算各个类簇的影响参数与所得累加和的比值,将常数1.0与各个比值之间的差值作为各个类簇的场景影响因子;
所述各个类簇的异常程度的获取步骤包括:
计算各个类簇的离群因子之间的累加和,计算各个类簇的离群因子与所得累加和之间的比值,将所得各个比值与各个类簇的场景影响因子之间的乘积作为各个类簇的异常程度。
2.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述根据全局平均距离得到邻域密度半径以及数据点数量阈值的方法为:设置邻域半径距离系数,将邻域半径系数与全局平均距离之间的乘积作为邻域密度半径;设置类簇数量,将待清洗数据集中包含的数据点的总数与类簇数量的比值作为数据点数量阈值。
3.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述待清洗数据集中各个数据点的斜率信息混乱程度的获取方法为:分别获取待清洗数据集中各个数据点与各个数据点的邻域密度半径范围内所有数据点之间线段的斜率;根据所得各个斜率出现的频率得到各个数据点的斜率信息混乱程度。
4.根据权利要求1所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述主要模式对应的各个类簇的获取方法为:获取预设的混乱程度差值阈值;待清洗数据集中的所有数据点标记为未访问状态,以任意一个未访问状态的数据点为中心数据点,对中心数据点进行分析:计算中心数据点邻域密度半径范围内各个数据点与中心数据点的斜率信息混乱程度之间的差值,将差值大于混乱程度差值阈值的所有数据点中最大差值对应的数据点作为新的中心数据点;
对新的中心数据点进行分析,直到新的中心数据点的邻域密度半径范围内各个数据点对应的差值均小于混乱程度差值阈值,将对应的中心数据点的邻域密度半径范围内的各个数据点记为初始类簇,并将所得初始类簇中的各个数据点标记为已访问状态;将初始类簇中的所有数据点均称为类内点,将初始类簇之外的任意一个数据点称为类外点;
当初始类簇中包含的数据点的个数小于数据点数量阈值时,获取初始类簇中各个数据点的斜率信息混乱程度最大的一个类内点,对初始类簇进行扩充,包括:根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点,将所得所有类外点划分到初始类簇中,得到扩充后的初始类簇;
如果扩充后的初始类簇中包含的数据点的个数仍小于数据点数量阈值,按照初始类簇中各个数据点的斜率信息混乱程度从大到小的顺序获取下一个类内点,对初始类簇进行扩充,直到所得类簇中包含的数据点的个数大于等于数据点数量阈值,将扩充后的初始类簇作为一个类簇;
依次对待清洗数据集中的各个数据点进行处理,得到主要模式对应的各个类簇。
5.根据权利要求4所述的用于神经网络训练的大数据特征清洗方法,其特征在于,所述根据所得类内点和类外点确定判断条件,并获取满足判断条件的所有类外点的步骤包括:对一个类外点进行条件一、条件二的判断,包括:
条件一:类外点为未访问状态;
条件二:获取所得类内点与其邻域密度半径范围内各个数据点对应的差值,如果这些差值均小于混乱程度差值阈值,同时类外点也处于这个邻域密度半径范围内;
依次对对各个类外点进行判断,获取满足判断条件的所有类外点。
6.用于神经网络训练的大数据特征清洗系统,其特征在于,该系统包括以下模块:
待清洗数据集获取模块,用以获取风电机组运行过程中的各个数据点,得到待清洗数据集;
数据集类簇划分模块,用以获取待清洗数据集的全局平均距离,根据全局平均距离得到邻域密度半径以及数据点数量阈值;获取待清洗数据集中各个数据点的斜率信息混乱程度;根据混乱程度差值阈值、待清洗数据集中各个数据点的斜率信息混乱程度得到初始类簇;当初始类簇中包含的数据点的个数小于数据点数量阈值时,对初始类簇进行扩充,直到初始类簇中包含的数据点的个数不小于数据点数量阈值;对待清洗数据集中不属于初始类簇的各个数据点进行类簇划分,得到主要模式对应的各个类簇;将待清洗数据集中不属于主要模式对应的各个类簇的数据点记为非主要模式的数据点;对非主要模式的数据点进行聚类,得到非主要模式的各个类簇,主要模式的各个类簇与非主要模式的各个类簇构成了待清洗数据集的所有类簇;
类簇异常程度获取模块,用以获取待清洗数据集中各个类簇的类簇特征点;根据各个类簇的类簇特征点计算各个类簇的场景影响因子以及各个类簇的离群因子;根据各个类簇的场景影响因子以及离群因子得到各个类簇的异常程度;
数据清洗模块,用以根据各个类簇的异常程度对待清洗数据集进行数据清洗;
所述各个类簇的场景影响因子的获取步骤包括:
计算各个类簇特征点的横坐标与纵坐标之间的乘积,根据所得乘积得到各个类簇的影响参数;计算待清洗数据集中所有类簇的影响参数的累加和,计算各个类簇的影响参数与所得累加和的比值,将常数1.0与各个比值之间的差值作为各个类簇的场景影响因子;
所述各个类簇的异常程度的获取步骤包括:
计算各个类簇的离群因子之间的累加和,计算各个类簇的离群因子与所得累加和之间的比值,将所得各个比值与各个类簇的场景影响因子之间的乘积作为各个类簇的异常程度。