1.一种文本相似度计算方法,其特征在于,包括:
基于预设词性权重计算两个文本之间的词性相似度;
基于改进的词频逆文本频率TF‑IDF算法计算所述两个文本之间的文字相似度;
根据所述词性相似度和所述文字相似度确定所述两个文本之间的综合相似度;
所述基于预设词性权重计算两个文本之间的词性相似度包括:按照如下公式计算两个文本之间的词性相似度:
其中,Simwordpro(A,B)表示文本A与文本B之间的词性相似度,gi表示文本A中第i个词的词性权重,gi'表示文本B中第i个词的词性权重,n表示文本A中的词与文本B中的词组成的集合中词的总数,LA表示文本A中词的总数,LB表示文本B中词的总数。
2.根据权利要求1所述的方法,其特征在于,所述基于改进的词频逆文本频率TF‑IDF算法计算所述两个文本之间的文字相似度,包括:按照如下公式计算每个文本中的每个词对应的TF‑IDF权重:其中,Wij表示文本i中词j对应的TF‑IDF权重,tfij表示词j在文本i中出现的次数,N表示文本集中包含的文本总数,nj表示文本集中包含词j的文本总数,i是文本标识,j是文本中的词的标识;
基于所述两个文本中每个词对应的TF‑IDF权重计算所述两个文本之间的文字相似度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述两个文本中每个词对应的TF‑IDF权重计算所述两个文本之间的文字相似度,包括:按照如下公式计算所述两个文本之间的文字相似度:
其中,Simtf‑idf(A,B)表示文本A与文本B之间的文字相似度,Wai表示文本A中第i个词对应的TF‑IDF权重,Wbi表示文本B中第i个词对应的TF‑IDF权重,n表示文本A中的词与文本B中的词组成的集合中词的总数。
4.根据权利要求1‑3任一项所述的方法,其特征在于,所述根据所述词性相似度和所述文字相似度确定所述两个文本之间的综合相似度,包括:按照如下公式确定所述两个文本之间的综合相似度:
Sim(A,B)=Simwordpro(A,B)*Simtf‑idf(A,B)其中,Sim(A,B)表示文本A与文本B之间的综合相似度,Simwordpro(A,B)表示文本A与文本B之间的词性相似度,Simtf‑idf(A,B)表示文本A与文本B之间的文字相似度。
5.根据权利要求1‑3任一项所述的方法,其特征在于,所述基于预设词性权重计算两个文本之间的词性相似度或者基于改进的词频逆文本频率TF‑IDF算法计算所述两个文本之间的文字相似度之前,所述方法还包括:对所述两个文本进行分词以及词性标注处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述两个文本进行分词以及词性标注处理,包括:利用python中的jieba分词工具对所述两个文本进行分词以及词性标注处理。
7.一种文本相似度计算装置,其特征在于,所述装置包括:词性相似度计算模块,用于基于预设词性权重计算两个文本之间的词性相似度;
文字相似度计算模块,用于基于改进的词频逆文本频率TF‑IDF算法计算所述两个文本之间的文字相似度;
综合相似度计算模块,用于根据所述词性相似度和所述文字相似度确定所述两个文本之间的综合相似度;
所述基于预设词性权重计算两个文本之间的词性相似度包括:按照如下公式计算两个文本之间的词性相似度:
其中,Simwordpro(A,B)表示文本A与文本B之间的词性相似度,gi表示文本A中第i个词的词性权重,gi'表示文本B中第i个词的词性权重,n表示文本A中的词与文本B中的词组成的集合中词的总数,LA表示文本A中词的总数,LB表示文本B中词的总数。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑6中任一项所述的文本相似度计算方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1‑6中任一项所述的文本相似度计算方法。