1.一种文档相似度计算方法,其特征在于,包括:
对待匹配文档进行分词处理,并确定所述待匹配文档的特征词;
基于预设规则计算每个特征词的权重;利用所述特征词的权重将所述待匹配文档进行向量化表示,得到所述待匹配文档的文档向量;
通过所述文档向量计算所述待匹配文档之间的相似度;所述基于预设规则计算每个特征词的权重,包括:基于所述待匹配文档的特征词将所述待匹配文档切分为多个文本段;根据每个文本段包含的特征词总数以及每个特征词在当前文本段出现的次数计算每个特征词的权重;
所述根据每个文本段包含的特征词总数以及每个特征词在当前文本段出现的次数计算每个特征词的权重,包括:按照如下公式计算每个特征词的权重:
其中:wsi表示文本段S中第i个特征词的权重,Cs表示文本段S的长度,Csk表示文本段S中第i个特征词在文本段S中出现的次数;
对应的,文本段S表示为S={ws1,ws2,ws3...wsn},待匹配文档D表示为D={S1,S2,S3……Sm},n表示文本段S中特征词的总数,m表示待匹配文档被切分的文本段的数量;
所述通过所述文档向量计算所述待匹配文档之间的相似度,包括:
按照如下公式计算所述待匹配文档之间的相似度:
其中:sim(d1,d2)表示待匹配文档d1与待匹配文档d2之间的相似度,m表示待匹配文档被切分的文本段的数量,λj表示第j个文本段对应的权重,mj表示第j个文本段中特征词的总数,k表示每个文本段中特征词的序号,w1jk表示待匹配文档d1的第j个文本段中第k个特征词的权重,w2jk表示待匹配文档d2中的第j个文本段中第k个特征词的权重。
2.根据权利要求1所述的方法,其特征在于,所述对待匹配文档进行分词处理,并确定所述待匹配文档的特征词,包括:利用python中的jieba分词工具对待匹配文档进行分词处理,并去除停用词,得到所述待匹配文档的特征词。
3.一种文档相似度计算方法装置,其特征在于,所述装置包括:
分词模块,用于对待匹配文档进行分词处理,并确定所述待匹配文档的特征词;
权重计算模块,用于基于预设规则计算每个特征词的权重;
向量化表示模块,用于利用所述特征词的权重将所述待匹配文档进行向量化表示,得到所述待匹配文档的文档向量;
相似度计算模块,用于通过所述文档向量计算所述待匹配文档之间的相似度;权重计算模块包括:切分单元和计算单元,其中,所述切分单元用于基于所述待匹配文档的特征词将所述待匹配文档切分为多个文本段;所述计算单元,用于根据每个文本段包含的特征词总数以及每个特征词在当前文本段出现的次数计算每个特征词的权重;
所述计算单元具体用于:按照如下公式计算每个特征词的权重:
其中:wsi表示文本段S中第i个特征词的权重,Cs表示文本段S的长度,Csk表示文本段S中第i个特征词在文本段S中出现的次数;
对应的,文本段S表示为S={ws1,ws2,ws3...wsn},待匹配文档D表示为D={S1,S2,S3……Sm},n表示文本段S中特征词的总数,m表示待匹配文档被切分的文本段的数量;
相似度计算模块具体用于:按照如下公式计算所述待匹配文档之间的相似度:其中:sim(d1,d2)表示待匹配文档d1与待匹配文档d2之间的相似度,m表示待匹配文档被切分的文本段的数量,λj表示第j个文本段对应的权重,mj表示第j个文本段中特征词的总数,k表示每个文本段中特征词的序号,w1jk表示待匹配文档d1的第j个文本段中第k个特征词的权重,w2jk表示待匹配文档d2中的第j个文本段中第k个特征词的权重。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑2中任一项所述的文档相似度计算方法。
5.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1‑2中任一项所述的文档相似度计算方法。