1.基于χ2-C的文本相似度计算方法,其特征在于,包括以下步骤:步骤1:对测试数据以及语料库的内容进行预处理;
步骤2:使用卷积神经网络CNN将测试数据集进行分类;
步骤3:使用TF-IDF算法计算检测样本中特征词的初始权重;
步骤4:使用χ2-C算法计算出领域关联因子Ca;
步骤5:利用词位置因子α结合领域关联因子Ca计算初始权重得出特征词权重;
步骤6:建立词库并根据步骤5得出的特征词权重生成初始文本向量;
步骤7:使用word2vec工具计算特征词之间的词义相似度,得出相似度矩阵P;
步骤8:根据步骤7得出的相似度矩阵计算初始文本向量,得出文本向量;
步骤9:使用余弦相似度算法计算步骤8产生的文本向量,得出文本相似度。
2.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤4包括:
2 2
χ-C算法是将χ统计量结合到领域关联算法中并计算出领域关联因子Ca,由于某些特征词计算出的χ2(d,c)值比较大,对后面的计算会产生较大的影响,导致计算结果不准确,因此采用式(1)对其进行处理;
其中,d表示特征词,c表示特征词所述的领域,di表示文中第i个特征词,count表示文中特征词的总数;
Ca通过式(2)、(3)、(4)计算:
其中,qd表示正类中包含特征词d的文档数在正类中的比重,ed表示正类中包含特征词d的文档数,Ed表示正类的总文档数,pd表示负类中包含特征词d的文档数在负类中的比重,nd表示负类包含d的文档数,Nd表示负类的总文档数,wd表示d与所在领域的关联度。
3.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤5中,为了增加特征词与领域的关联程度,使用式(5),结合领域关联因子Ca((d,c)和词位置信息α计算特征词初始权重,得出特征词权重;
wdt'=Ca((d,c)×wdt×α (5)其中,wdt'表示特征词权重,α代表了词的位置信息,α采用式(6)获得:
4.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤6中,首先将文本β和γ的特征词进行合并,建立文本β和γ的词库,使每一个词都有对应的标号;
再利用词库将两篇待测文本β和γ表示成式(7)的形式:vk=
且对于文本β中的wksη服从式(8);
对于文本γ中的wksη服从式(9)
dη在指的是词库中标号为η的特征词,且dβi∈Sdβ,dγi∈Sdγ。
5.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤7中,词库中的标号为i的特征词与标号为j的特征词相似度为simij,则特征词之间的相似度矩阵为式(10)所示:
6.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤9中,在文本向量中增加词义信息,使用相似度矩阵更新β和γ文本向量;测试文本β、γ的文本向量分别为式(11)、(12)所示:vβ=
v'k=vk×P (13)其中k∈{β,γ},计算出新的文本向量v'β=