1.基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,包括:S1、获取文本数据,并对文本进行初步预处理;
S2、构建多粒度属性树,即包括:将初步预处理获得的文本数据分词结果组成词汇集合,作为根结点,根结点在树的第0层;
将根结点中的词汇分为m组,每组之间相交为空集,各个分组是根结点的子结点,处于多粒度属性树的第1层;
再将多粒度属性树第1层的子结点视为根结点,递归的将每个结点分为m组,以此类推,直到结点不可再分,在分组的过程中,当m大于根结点中的词数,则m取根结点中的总词数;
S3、根据多粒度属性树对文本属性数据约简,得到文本约简的数据,即包括:对多粒度属性树,从根结点开始,以广度优先遍历的顺序判断每个结点的删除是否改变原始数据的正区域,若没有改变,则删除该结点及其子树,继续遍历多粒度属性树;否则继续进行广度优先遍历;
对于遍历后的多粒度属性树,提取其所有子结点代表的属性,这些属性作为要保留的条件属性,与文本数据主题属性组成新的数据。
2.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,所述文本数据获取,并进行初步数据预处理包括:获取文本数据;
将文本数据中有主题的数据筛选出来,并将有主题的文本数据的主题提取出来作为这条文本数据的类别;
对有主题的文本数据内容进行分词,得到组成该文本的一系列词汇,再删除其中的标点符号、停用词、非中文字符;
将有主题的文本数据都如上处理,最终将所有词汇与文本数据的主题构成预处理数据结果。
3.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,广度优先遍历过程包括:首先从多粒度属性树中选择根结点V0,并访问此根结点;
从根结点V0出发,访问根结点V0的各个未曾访问的孩子结点W1,W2,…,Wk;
然后,依次从W1,W2,…,Wk出发访问各自未被访问的孩子结点;
进行上述步骤,直到多粒度属性树中的所有结点都被访问过,遍历结束。
4.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,在步骤S3之后还包括:S4、利用数据挖掘算法对属性约简的数据进行进一步分析,包括利用约简后数据的属性计算未知主题文本的主题。
5.根据权利要求4所述的基于多粒度属性树的属性约简在文本分类中的应用方法,其特征在于,利用约简后数据的属性计算未知主题文本的主题包括:对于未知主题文本,将其用约简后数据的属性进行表示,再利用K最近邻KNN算法,计算出未知主题 文本的主题。