1.一种文本相似度计算方法,其特征在于,包括:
根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;
根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;
根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度;
其中,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度,包括:按照如下公式计算所述两个待匹配文本句的句型相似度:
其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重;
其中,所述根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度,包括:按照如下公式计算所述两个待匹配文本句的语义相似度:
其中,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。
2.根据权利要求1所述的方法,其特征在于,所述根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度,包括:按照如下公式计算所述两个待匹配文本句的综合相似度:
其中,SenSim(A,B)表示待匹配文本句A与待匹配文本句B的综合相似度,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,SemanticSim(A,B)表示待匹配文本句A与待匹配文本句B的语义相似度, 为句型相似度对应的权重, 为语义相似度对应的权重。
3.根据权利要求1‑2任一项所述的方法,其特征在于,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;或者根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度之前,所述方法还包括:对所述两个待匹配文本句进行分词以及词性标注处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述两个待匹配文本句进行分词以及词性标注处理,包括:利用python中的jieba分词工具对所述两个待匹配文本句进行分词以及词性标注处理。
5.一种文本相似度计算装置,其特征在于,所述装置包括:
句型相似度计算模块,用于根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;
语义相似度计算模块,用于根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;
综合相似度计算模块,用于根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度;
其中,句型相似度计算模块具体用于按照如下公式计算所述两个待匹配文本句的句型相似度:其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重;
其中,语义相似度计算模块具体用于按照如下公式计算所述两个待匹配文本句的语义相似度:其中,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑4中任一项所述的文本相似度计算方法。
7.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1‑4中任一项所述的文本相似度计算方法。