1.一种基于大数据的计算机数据挖掘方法,其特征在于,包括以下步骤:获取描述产品的文本信息;根据文本信息提取产品的多个属性;
通过计算机获取描述该产品的待挖掘文本信息,形成待挖掘大数据;
根据待挖掘大数据中每个属性出现的次数,及与其余属性之间的距离获取每个属性的综合影响程度;
根据待挖掘大数据中任一属性的综合影响程度,及出现该属性的置信度,获取待挖掘大数据中任一属性的依赖度,依次获取每个属性的依赖度;
对每个属性的依赖度进行归一化获取归一化后的依赖度;
根据待挖掘大数据和每个属性与其对应归一化后的依赖度,获取每个属性的加权信息熵增益值;
根据每个属性的加权信息熵增益值构建产品属性的决策树,根据决策树对待挖掘大数据进行提纯;
所述每个属性的综合影响程度是按照以下步骤获取:
根据待挖掘大数据中第 个属性出现的次数,及第 个属性第次出现时距离首次出现的第 个属性的距离获取第 个属性的正影响程度;
根据待挖掘大数据中第 个属性出现的次数,和第 个属性第次出现时距离首次出现的第 个属性的距离,及第 个属性出现的次数,获取第 个属性的负影响程度;
根据第 个属性的正影响程度和负影响程度获取待挖掘大数据中第 个属性的综合影响程度;
所述每个属性的依赖度是按照以下步骤获取:
根据待挖掘大数据中第 个属性的综合影响程度,及在待挖掘大数据中出现第 个属性时出现第 个属性的置信度获取待挖掘大数据中第 个属性的依赖度;
所述第 个属性的依赖度计算公式如下:
式中, 表示第 个属性的依赖度; 表示待挖掘大数据中出现第 个属性时出现第 个属性的置信度;表示属性的总数量; 表示第 个属性的综合影响程度;
所述每个属性的加权信息熵增益值计算公式如下:
式中, 表示第 个属性的加权信息熵增益值; 表示待挖掘大数据的信息熵; 表示利用第 个属性划分待挖掘大数据后的信息熵; 表示第 个属性归一化后的依赖度;表示属性的总数量。
2.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述第个属性的正影响程度的计算公式如下:式中, 表示第 个属性的正影响程度; 表示第 个属性对于第 个属性的正影响程度;表示属性的总数量;
其中,第 个属性对于第 个属性的正影响程度计算公式如下:式中, 表示第 个属性第 次出现时距离首次出现的第 个属性的距离;为第 个属性总体出现次数;表示第 个属性出现的次数。
3.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述第个属性的负影响程度的计算公式如下:式中, 表示第 个属性的负影响程度; 表示第 个属性对于第 个属性的负影响程度;表示属性的总数量;
其中,第 个属性对于第 个属性的负影响程度的计算公式如下:式中, 表示第 个属性第次出现时距离首次出现的第 个属性的距离; 为第个属性第 次出现时距离首次出现的第 个属性的距离;
为第 个属性总体出现次数;表示第 个属性出现的次数; 为第 个属性出现的次数; 表示非第 个属性和非第 个属性的其余属性的总数。
4.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述形成待挖掘大数据的过程中还按照以下步骤进行筛选:根据待挖掘大数据中的待挖掘文本信息和产品的文本信息获取每个待挖掘文本信息与文本信息的亲近度;将与文本信息的亲近度小于等于零的待挖掘文本信息进行清洗获取清洗后的待挖掘大数据;
根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选,获取与多个属性相同的待挖掘文本信息,形成筛选后的待挖掘大数据。
5.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述与其余属性之间的距离是文本中字符间的距离。