欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108114408
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于χ2-C的文本相似度计算方法,其特征在于,包括以下步骤:步骤1:对测试数据以及语料库的内容进行预处理;

步骤2:使用卷积神经网络CNN将测试数据集进行分类;

步骤3:使用TF-IDF算法计算检测样本中特征词的初始权重;

步骤4:使用χ2-C算法计算出领域关联因子Ca;

步骤5:利用词位置因子α结合领域关联因子Ca计算初始权重得出特征词权重;

步骤6:建立词库并根据步骤5得出的特征词权重生成初始文本向量;

步骤7:使用word2vec工具计算特征词之间的词义相似度,得出相似度矩阵P;

步骤8:根据步骤7得出的相似度矩阵计算初始文本向量,得出文本向量;

步骤9:使用余弦相似度算法计算步骤8产生的文本向量,得出文本相似度。

2.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤4包括:

2 2

χ-C算法是将χ统计量结合到领域关联算法中并计算出领域关联因子Ca,由于某些特征词计算出的χ2(d,c)值比较大,对后面的计算会产生较大的影响,导致计算结果不准确,因此采用式(1)对其进行处理;

其中,d表示特征词,c表示特征词所述的领域,di表示文中第i个特征词,count表示文中特征词的总数;

Ca通过式(2)、(3)、(4)计算:

其中,qd表示正类中包含特征词d的文档数在正类中的比重,ed表示正类中包含特征词d的文档数,Ed表示正类的总文档数,pd表示负类中包含特征词d的文档数在负类中的比重,nd表示负类包含d的文档数,Nd表示负类的总文档数,wd表示d与所在领域的关联度。

3.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤5中,为了增加特征词与领域的关联程度,使用式(5),结合领域关联因子Ca((d,c)和词位置信息α计算特征词初始权重,得出特征词权重;

wdt'=Ca((d,c)×wdt×α       (5)其中,wdt'表示特征词权重,α代表了词的位置信息,α采用式(6)获得:

4.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤6中,首先将文本β和γ的特征词进行合并,建立文本β和γ的词库,使每一个词都有对应的标号;

再利用词库将两篇待测文本β和γ表示成式(7)的形式:vk=    (7)其中,vk表示初始文本向量,β和γ的特征词集合分别为Sdβ={dβ1,dβ2,dβ3,dβi,…,dβn}和Sdγ={dγ1,dγ2,dγ3,dγj,…,dγm},β和γ的特征词权重集合分别为Swβ={w'β1,w'β2,w'β3,w'βj....w'βn}和swγ={w'γ1,w'γ2,w'γ3,w'γj....w'γm},k∈{β,γ},w'kη∈Swβ∪swγ,η表示特征词dη在词库中对应的标号,dη∈Sdβ∪Sdγ,N为词库中特征词的总数;

且对于文本β中的wksη服从式(8);

对于文本γ中的wksη服从式(9)

dη在指的是词库中标号为η的特征词,且dβi∈Sdβ,dγi∈Sdγ。

5.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤7中,词库中的标号为i的特征词与标号为j的特征词相似度为simij,则特征词之间的相似度矩阵为式(10)所示:

6.如权利要求1所述的基于χ2-C的文本相似度计算方法,其特征在于,所述步骤9中,在文本向量中增加词义信息,使用相似度矩阵更新β和γ文本向量;测试文本β、γ的文本向量分别为式(11)、(12)所示:vβ=     (11)vγ=      (12)式(13)将初始文本向量与特征词相似度矩阵做内积得到文本向量;

v'k=vk×P            (13)其中k∈{β,γ},计算出新的文本向量v'β=和v'γ=,文本向量包含了词频、词义、词位置信息以及领域关联度。