1.一种情感文本数据标注方法,其特征在于,所述方法包括:
获取待标注的情感文本数据,并对其进行清洗处理和去重处理;
采用基于超球体的k-means聚类算法对处理后的待标注的情感文本数据进行聚类,获得待标注的情感文本数据所对应的球簇信息及其近邻关系;
根据各个球簇信息及其近邻关系,获取各个球簇的稳定域和环域,并根据需要的标记量依次从外到内的环域中筛选出具有代表性的待标注的情感文本数据;
对各个球簇的稳定域中选择出部分待标注情感文本数据进行标注处理,并使用经过标注处理后的情感文本数据初始训练分类器;
将具有代表性的待标注的情感文本数据输入到训练完成的分类器中,得到对应分类概率,对预测得到的分类概率进行不确定性处理,输出具有不确定性的待标注的情感文本数据;
所述对预测得到的分类概率进行不确定性处理具体包括计算出待标注的情感文本数据所对应的预测概率的不确定性,当所述不确定性超过预设的自适应阈值时,则对应的待标注的情感文本数据具有不确定性;
计算出待标注的情感文本数据所对应的预测概率的不确定性所采用的公式表示为:其中,G(p)表示待标注的情感文本数据p的基尼指数,是信息熵的一阶泰勒展开;K表示待标注的情感文本数据的分类数,p选择具有不确定性的待标注的情感文本数据所采用的计算公式表示为:其中,Selected instances表示待标注的情感文本数据,G(x)表示待标注的情感文本数据x的基尼指数;
对所述具有不确定性的待标注的情感文本数据进行标注处理,并输出已标注情感文本数据。
2.根据权利要求1所述的一种情感文本数据标注方法,其特征在于,所述采用基于超球体的k-means聚类算法对处理后的待标注的情感文本数据进行聚类包括对处理后的待标注的情感文本数据进行z-score标准化,计算出不同数据样本点之间的欧氏距离,采用k-means++的质心初始化策略选择出k个球簇质心;确定出每个数据样本点到球簇质心的距离,以及球簇之间的距离;使用超球体刻画每个球簇,按照距离关系,将待标注的情感文本数据分类到不同的球簇中。
3.根据权利要求1所述的一种情感文本数据标注方法,其特征在于,所述根据各个球簇信息及其近邻关系,获取各个球簇的稳定域和环域包括根据当前球簇的所有近邻球簇的质心的集合,若当前球簇的近邻球簇的质心个数为0,则将当前球簇的内部球形区域作为稳定域,其余部分作为环域;若当前球簇的近邻球簇的质心个数不为0,则根据近邻球簇的质心从当前球簇的所有球形区域中计算出环域,将当前球簇的剩余球形区域作为稳定域。
4.根据权利要求3所述的一种情感文本数据标注方法,其特征在于,所述根据近邻球簇的质心从当前球簇的所有球形区域中计算出环域具体包括:其中,c表示球簇C的质心,c
5.一种情感文本数据标注装置,其用于实现如权利要求1~4任一所述的情感文本数据标注方法,其特征在于,所述装置包括:获取单元,用于获取待标注的情感文本数据;
处理单元,用于对获取的待标注的情感文本数据进行清洗处理和去重处理;
聚类单元,用于基于超球体的k-means聚类算法对处理后的待标注的情感文本数据进行聚类,获得待标注的情感文本数据所对应的球簇信息及其近邻关系;
分类单元,用于根据各个球簇信息及其近邻关系,获取各个球簇的稳定域和环域;
第一筛选单元,根据需要的标记量依次从外到内的环域中筛选出具有代表性的待标注的情感文本数据;
第一标注单元,用于对各个球簇的稳定域中选择出部分待标注情感文本数据进行标注处理;
训练单元,用于使用经过标注处理后的情感文本数据训练分类器;
第二筛选单元,用于将具有代表性的待标注的情感文本数据输入到训练完成的分类器中,得到对应分类概率,对预测得到的分类概率进行不确定性处理,输出具有不确定性的待标注的情感文本数据;
第二标注单元,用于对所述具有不确定性的待标注的情感文本数据进行标注处理,并输出已标注情感文本数据。
6.一种情感文本数据标注系统,其特征在于,包括如权利要求5所述的一种情感文本数据标注装置,还包括Spark平台和分布式数据库,所述Spark平台搭载有所述获取单元和所述处理单元;所述分布式数据库用于存储进行清洗处理和去重处理后的待标注的情感文本数据,并供所述聚类单元调用。
7.一种电子设备,其特征在于,包括:
处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至4中任一项所述的情感文本数据标注方法。