1.一种基于主动学习的文本数据自动标注方法,其特征在于,包括以下步骤:101、对已标记文本数据和未标记文本数据进行处理:首先分别对已人工标记样本文本数据和未标记样本文本数据做聚类处理,保存聚类后所得的k个聚簇中心点(C1,C2,C3,…,Ck)和每个聚簇内点到聚类中心的距离d,以及每个聚簇的聚类半径(r1,r2,…,rk);
102、利用多个不同的基分类器对未标记文本数据进行分类:根据步骤101中经过聚类处理的部分已标记文本数据训练M个不同的分类器(M1,M2,…,MM),并根据另外一部分文本数据使用线性回归模型对M个不同基分类器的分类结果做模型融合,得到每个基分类器的权重(i1,i2,…,iM),使用这M个分类器结合各自权重对未标记文本数据进行分类并根据标记结果,将已确定标记无误的样本加入已标记样本并不断定时重新训练当前各分类器模型,未标记文本数据确认类别后加入到已标记文本数据中,随着已标记文本数据量的增加,分类器模型应不断重新训练更新;
103、将步骤102未标记文本数据的最终分类结果P和每个基分类器的分类结果(p1,p2,…,pM)进行结合获取该样本的分类分歧和:将分歧定义为样本融合后的最终分类类别和基分类器分类类别是否相同,相同则分歧为0,不相同为1,最后,计算并选取出分歧和大于k/2的未标记文本数据,分歧和指前面所有的0和1相加不同的分类器个数,并做标记处理;
104、对分歧大的文本数据进行人工标记;
105、对人工标记结果进行自检,如果自检结果与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
2.根据权利要求1所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤101对已标记数据聚类处理为:采用聚类算法对已标记数据进行聚类,保存聚类后所得的X个聚簇中心点坐标,每个聚簇的平均半径D,以及当前每个聚簇的真实类别(Y1,Y2,Y3,...,YX)。
3.根据权利要求2所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤101对未标记数据聚类处理为:采用聚类算法对未标记数据进行聚类,保存聚类后所得的Y个聚簇中心点(C1,C2,C3,...,CY)和每个聚簇内点到聚类中心的距离d以及每个聚簇的聚类半径(r1,r2,...,rY),X和Y的值没有关系,根据数据进行选取,并且X表示已标记数据的聚类后的值,Y表示未标记数据的聚类后的值,X和Y的和应该等于总数k,在自检过程中方便查找可疑样本x周围的N个最近样本,查找过程:
1)计算x与Y个聚簇中心点的距离L,并减去相应聚簇的半径r,得到l=(l1,l2,...,lY);
2)取L中值最小的3个簇,设(Q1,Q2,Q3)容器中存放需要的样本,对3个簇做如下操作:i、对3个簇中的样本点按照距离簇中心点的距离从大到小排列;
ii、依次计算样本点与可疑样本x的距离,如果距离<Ln则替换掉Qn中的最小值,否则舍去,直到样本点用完或Qn已满;Ln表示第n个容器中的距离阈值,n取值1或2或3;
iii、取(Q1,Q2,Q3)中最小的N个值即为所查找的N个最近邻位置。
4.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,所述聚类算法可以根据数据样本采用包括层次聚类、K-means在内的聚类方法。
5.根据权利要求1-4之一所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤102中不同的基分类器包括决策树、神经网络、支持向量机、朴素贝叶斯和随机森林在内的分类器。
6.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤103选出分歧较大的数据:用已标记文本数据集训练M个不同的分类器(M1,M2,...,MM),并用线性回归模型对这M个分类器进行模型融合,确定每个分类器的权重(i1,i2,...,iM),基于每一个未知样本的M个基分类器对该样本的分类结果(M1,M2,...,MM)以及分类置信度和每个基分类器的权重求出该样本的最终预测类别,预测类别并根据最终预测类别P和M个基分类器分类结果(M1,M2,...,MM)进行对比求分歧操作,统计分歧和。
7.根据权利要求3所述的基于主动学习的文本数据自动标注方法,其特征在于,所述步骤105自检过程包括以下步骤:i、某人工标注样本g找到最近邻N个样本X={x1,x2,...,xN} ,如果g的近邻样本都已标注,则继续;如果近邻样本存在未标记数据,则跳过并重新选取人工标记数据;
ii、计算每一个人工标记数据与步骤101聚类好的已标记数据的簇类中心的距离和簇类半径的差值结果前m个最小值集合W={Rr1,Rr2,...,Rrm},保存这些簇的真实类别(Y1,Y2,Y3,...,Ym);根据公式(1)计算根据已标记样本确定的样本类别影响因子;
其中e表示标签值(Y1,Y2,Y3,...,Ym)中Yi=1的个数,i=1,2...m,t表示标签值(Y1,Y2,Y3,...,Ym)中Yi=0的个数;
iii、根据在未标记数据选取的近邻样本数据{x1,x2,...,xk},统计其已标记的标签值{p1,p2,...,pk},其中pi∈(1,0),并算取每一个样本数据离人工标记数据的距离{d1,d2,...,dk},根据公式(3)和(4)分别计算未标记数据样本对该样本权重类别的影响因子;
其中f表示标签值{p1,p2,…,pk}中pi=1的个数,g表示标签值{p1,p2,…,pk}中pi=0的个数;
iv、根据ii、iii步骤,根据公式(5)算取自检模块分析出的该样本类别y,如果i=0,N=g,如果i=1,N=f,即:如果自检结果y与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。