1.一种基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,包括以下步骤:
101、对文本数据进行预处理,结合实例标签空间和特征空间构造新的实例特征空间;
102、对正负实例特征空间计算聚类个数,并构造标签特定特征;
103、对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图;
104、采用扩展Kruskal算法在标签间相关性无向完全图中计算最大生成树集合;
105、从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集。
2.根据权利要求1所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤101文本数据预处理为:对正负实例数据集将特征空间与标签空间合并,使得多个剩余标签补充特征空间构造正负实例特征空间 和其中D={(xi,Yi)|1≤i≤n}表示多标签数据集,xi表示第i个实例的原始特征空间,Yi表示第i个实例关联的多标签集合。
3.根据权利要求2所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤102对正负实例特征空间计算聚类个数,并构造标签特定特征,具体步骤为:
1021.为将正负实例特征转换为标签特定特征,首先根据特征空间计算标签特定特征空间大小,为防止特征空间过大造成标签特定特征维度爆炸,取正负空间大小中较小值,并使用对数对其进行缩放,最终得出聚类个数mk;
1022.采用K‑MEANS算法对正负实例空间进行聚类,将原始特征空间向量与聚类中心点结合聚类点个数进行度量,从原始的d维空间 映射到一个dk维度的标签特定特征空间其中 表示第i个实例对应的标签特定特征, 为欧式距离, 分别表示正负聚类中心点,C为第i个聚类中心样本集合,|Ci|为第i个聚类中心点个数,利用聚类个数对欧式距离进行放缩,缓解多标签中标签不平衡性问题。
4.根据权利要求3所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤103对文本数据集中成对标签计算相关性,构造标签间相关性无向完全图的具体步骤为:
1031.定义相关性无向完全图:在图中任意两个标签顶点之间都存在相关性边且不存在自环和重边;
1032.对标签空间采用corr(li,lj)计算得出标签相关性集合E,以数据集中多标签集合V={l1,…,lj,…,lq}为无向完全图G中点集,q为多标签集合大小,成对标签相关性集合E={corr(li,lj)|li∈V,lj∈V}为无向完全图G中边集;
其中|li|为标签i出现的次数,lik表示第i个标签向量中第k维数值,表示第i个标签向量的均值,将成对标签取出现次数较小值,结合标签空间中标签的协方差与标准差,即可得到多标签间相关性。
5.根据权利要求4所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤104采用扩展Kruskal算法在图中计算最大生成树,选取树中每个顶点为根生成多棵权值相同但树高度不同的最大生成树,并根据树的高度从低到高排序的具体步骤为:
1041.定义最大生成树:一个含有所有标签节点连通图的生成树,包含成对标签间相关性无向完全图中所有标签并且有保持相关性连通图最大权值和的边集;
1042.定义扩展Kruskal算法:采用贪心的思想,将边集合按照权值降序排序,然后对相同权值的边进行递归搜索生成不同树结构,直至生成总权值相同的最大生成树集合;
1043.对于最大生成树集合,枚举树中的任意子节点为根节点进行树重构,一棵最大生成树会产生|V|个不同的树结构,V表示树上节点集合,并对每棵重构树根据树高度从低到高排序。
6.根据权利要求5所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述扩展Kruskal算法步骤:
1).将带有相关性的边集合按照权值降序排序;
2).对权值边进行递归搜索:如果这条边加入当前树中不会构成回路,则将该边加入到树中,直至所有标签节点都在树中;
3).对于2中得出的最大生成树,枚举每个点为根节点构建多棵最大生成树,根据高度从底到高排序。
7.根据权利要求5所述的基于标签特定特征和相关性的文本数据多标签分类方法,其特征在于,所述步骤105从树集合中依次选择生成树,并从根节点开始使用二分类器在树上进行递归预测,对预测结果进行树上集成得出文本实例标签集,具体步骤为:
1051.对于步骤105中多棵结构不同的相关性最大生成树,选择前mk棵树进行分类,对于每棵树从根节点开始递归预测,在预测过程中将祖先节点标签预测结果加入到子节点标签特征空间中构建新的特征空间,此时的标签特征空间可以扩充为 此时 表示标签lk新的标签特定特征;
其中ancestor(lk)表示标签lk在相关性最大生成树中祖先节点标签的二进制数据集;
1053.采用二分类器对该标签节点数据集 进行分类,再递归分类子节点标签,直至对所有生成树中节点分类完毕;
η(Yi,lk)表示标签lk是否在实例相关标签集合Yi中;
1054.由于选择根节点的不同会造成不同的树结构,表达的标签间强相关性也不一样,为了充分利用标签间的强相关性,同时减小选择不同根节点带来的影响,使用多棵树进行多标签分类,对于一个未知实例 树集成个数为t, 为标签lk在第j棵树上的分类器;
将不同树上的同一节点进行集成,最终即可得出标签集Yu;