1.用于经济大数据中文本数据的泛化处理保护方法,其特征在于,该方法包括以下步骤:从多个数据源获取不同领域多类内容的文本数据;
根据每个领域每类内容中文本数据通过PV-DM模型获取每个文本数据的文本属性向量,通过文本数据的文本属性向量训练孤立森林模型,基于所述文本属性向量降维所得特征向量之间的类内差异确定聚类簇中每个特征向量的类内偏差值;
基于每个聚类簇内特征向量的类内偏差值的分布离散程度确定每个聚类簇的内容复杂度;基于所述内容复杂度结合两个聚类簇内特征向量的相似程度确定两个聚类簇之间的内容可转换度;
基于树节点中特征向量所在聚类簇之间的内容可转换度确定孤立树的投票权重,基于所述投票权重得到每个文本属性向量的异常得分;
基于每个领域每类内容下所有文本数据对应文本属性向量的异常得分筛选需要泛化处理的文本数据,利用泛化模型得到泛化处理结果。
2.如权利要求1所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述训练孤立森林模型,包括:将每个领域获取的每类内容的文本数据作为输入,采用PV-DM模型得到各个领域获取的每类内容的每个文本数据的文本属性向量;
将每个文本属性向量的长度作为孤立森林算法中每个样本的维度,采用交叉验证的方式确定孤立树的最大深度;
将每个领域获取的每类内容的所有文本数据的文本属性向量作为训练样本,训练得到孤立森林模型。
3.如权利要求1所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于所述文本属性向量降维所得特征向量之间的类内差异确定聚类簇中每个特征向量的类内偏差值,包括:计算每棵孤立树上每个树节点内任意两个文本属性向量之间的余弦相似度,所有所得余弦相似度输入到大津阈值算法中,利用大津阈值算法获取相似度的分割阈值,将余弦相似度大于等于分割阈值的两个文本属性向量组成的组合记为真实相似组合;
利用PCA主成分分析法将每个文本属性向量降至预设维度的特征向量,利用聚类算法将每个树节点内所有文本属性向量降维所得特征向量划分到多个聚类簇中;
将每个聚类簇内的每个特征向量作为一个计算对象,分别计算每个计算对象、每个特征向量与同一特征向量之间余弦相似度的差值绝对值,将所述差值绝对值在每个聚类簇内所有特征向量上累加结果的均值作为计算对象的类内偏差值。
4.如权利要求1所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于每个聚类簇内特征向量的类内偏差值的分布离散程度确定每个聚类簇的内容复杂度,包括:分别计算每个聚类簇内特征向量的类内偏差值的分布方差和极差,将所述分布方差和极差的乘积作为每个聚类簇的内容复杂度。
5.如权利要求4所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于所述内容复杂度结合两个聚类簇内特征向量的相似程度确定两个聚类簇之间的内容可转换度,包括:将两个聚类簇中两个特征向量之间余弦相似度在两个聚类簇内累加结果的均值作为两个聚类簇之间的相似度特征值;
将两个聚类簇的内容复杂度之和作为分子;
将分子与所述相似度特征值的比值作为两个聚类簇之间的内容可转换度。
6.如权利要求1所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于树节点中特征向量所在聚类簇之间的内容可转换度确定孤立树的投票权重,基于所述投票权重得到每个文本属性向量的异常得分,包括:利用每个树节点内所有文本属性向量对应特征向量聚类所得聚类簇之间的内容可转换度确定每个树节点对应的最小生成树,将所述最小生成树中节点之间的连线权重之和与节点数量的比值作为树节点的样本分割精度;
基于每棵孤立树中所有树节点的样本分割精度确定孤立树的投票权重;
将每个领域获取的每类内容的文本数据的文本属性向量作为输入,基于所有孤立树的投票权重利用训练的孤立森林模型得到每个文本属性向量的异常得分。
7.如权利要求6所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述利用每个树节点内所有文本属性向量对应特征向量聚类所得聚类簇之间的内容可转换度确定每个树节点对应的最小生成树,包括:将每个树节点内文本数据降维得到的所有特征向量聚类得到的每个聚类簇作为一个节点,将两个聚类簇之间的内容可转换度作为对应两个节点之间的连线权重,基于聚类所得所有聚类簇得到每个树节点的特征图;
将每个树节点的特征图作为输入,利用Prim算法生成每个树节点的特征图的最小生成树。
8.如权利要求7所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于每棵孤立树中所有树节点的样本分割精度确定孤立树的投票权重,包括:将孤立树中处于同一层的树节点记为同层树节点,将同层树节点中最大的样本分割精度作为本层的分割代表值;
将孤立树各层的分割代表值按照对应层所在的深度从小到大排序得到分割代表序列;
对于分割代表序列中各相邻元素,计算相邻元素中的后一个元素与前一个元素的差值,确定以所述差值与预设常数之和为真数,以自然常数为底数的对数函数的计算结果;
将所述计算结果在分割代表序列上的累加结果的均值作为每棵孤立树的投票权重。
9.如权利要求8所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述基于每个领域每类内容下所有文本数据对应文本属性向量的异常得分筛选需要泛化处理的文本数据,包括:将每个领域每类内容的所有文本数据对应文本属性向量的异常得分作为输入,采用数据聚类算法,聚类簇的个数设为2,输出为2个聚类簇;
并计算每个聚类簇内所有异常得分的均值,将所述均值最大的聚类簇中的异常得分对应的文本数据,记为每个领域每类内容的高差异样本,将所述高差异样本作为需要进行泛化处理的对象。
10.如权利要求1所述的用于经济大数据中文本数据的泛化处理保护方法,其特征在于,所述利用泛化模型得到泛化处理结果,包括:对于每个领域每类内容的每个高差异样本,分别计算每个高差异样本和其余领域中所有类内容的高差异样本之间的编辑距离,将其余领域中所有类内容中所述编辑距离小于距离阈值的高差异样本组成的集合作为每个高差异样本的匿名候选集合;
将每个高差异样本、每个高差异样本的匿名候选集合作为k-匿名算法的输入,利用k-匿名算法得到每个高差异样本的泛化处理结果。