欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016109917195
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-01
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于图聚类的高维文本数据特征选择方法,其特征在于,包括以下步骤:101、获取高维文本数据,并采用筛选法得到高维文本数据的相关特征,根据相关特征构造加权无向图;步骤101采用筛选法得到高维文本数据的相关特征的步骤为:步骤1:首先计算特征与类别间的相关性Sim(fi,C),并进行降序排序;步骤2:采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征;

步骤101根据相关特征构造加权无向图具体包括:将留下的相关特征集F={f1,f2,…,fm},构造加权无向图G={V,E,W},其中V={v1,v2,…,vm}为顶点集合,v1,v2,…,vm分别表示m个特征集,E={e1,e2,…,eq}为q条加权边集合,W={w1,w2,…,wq}为q条加权边的权值集合;

采用双重阈值法剔除不相关特征,筛选出高维文本数据的相关特征具体包括:设定两个阈值T1,T2,其中T1用于控制算法性能,T2体现特征相关性的分布情况,分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1,m2,则最终保留的特征个数为m=min{m1,m2},其中m<=n,阈值T1,T2分别设为 和μ+δ,μ、δ分别表示均值和标准差,筛选得到相关特征集F={f1,f2,…,fm};

102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类;103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间,剔除类簇内的冗余特征;104、最后根据剩余相关特征与类别间的关系,评价分类性能挑选出最佳特征子集。

2.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤1计算特征与类别间的相关性Sim(fi,C)具体包括:假设存在数据集D={F,C},其中F={f1,f2,…,fn}为特征集,n为特征维度,C为类别标签集,每个特征fi∈F,对于类别标签集C,可用如下Sim(x,y)表示:其中μ,δ分别表示均值和标准差;H(x)和H(y)分别表示一个随机变量x和y的不确定性,即熵;IG(x,y)为信息增益。

3.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤;初始化每个特征,将每个特征视为一个独立类簇,得到类簇集S={s1,s2,…,sk},其中k表示形成k个类簇;

依据Sim(fi,C)降序排序,选取max(Sim(fi,C))的特征作为起始点,搜索特征fi所有邻近特征所在的类簇sj,并分别计算该特征和各个邻近类簇的关联性增益 如果大于阈值T3,且为最大值,则将特征合并到该类簇中,形成新的类簇,反之,则不变:直到所有特征都被划分到新的类簇中,并更新G;直到各个类簇间的差异度ΔGlo_Sim最大。

4.根据权利要求3所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述特征fi和各个邻近类簇的关联性增益计算公式为:其中∑Sim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和;∑Sim(sj,)为所有与类簇sj相关联的边之权重和;∑Sim(fi,)为所有与特征fi相关联的边总权重;∑Sim为图G中所有特征边的权重总和。

5.根据权利要求3所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间,剔除类簇内的冗余特征具体包括:假设聚类后每个类簇sl,其中l∈[1,k],如果对于fi∈sl, 存在Sim(fi,fj)<μ+δ&&Sim(fi,C)

6.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法,其特征在于,步骤

104评价分类性能挑选出最佳特征子集包括:

剔除冗余特征后,在每个类簇内根据相关性Sim(fi,C)选择出Top w个特征组成最优特征子集,Top w指相关性最高的前w个特征,考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

7.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法,其特征在于,所述分类精确度的计算公式为:其中Acc表示分类准确度,TP:被判定为正样本,事实上也是正样本,TN:被判定为负样本,事实上也是负样本,FP:被判定为正样本,但事实上是负样本,FN:被判定为负样本,但事实上是正样本。