知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种文本相似度计算方法、装置、电子设备及存储介质

￥35800

专利号： 2018110664295

申请人：北京橙果转话科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种文本相似度计算方法，其特征在于，包括：

基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度；

基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度；

根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度；

所述基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度，包括：按照如下公式计算所述两个待匹配文本句之间的主题相似度：

其中，SimLDA(A,B)表示待匹配文本句A与待匹配文本句B之间的主题相似度，Di表示LDA模型的主题集合中的第i个主题，xi,Di表示待匹配文本句A中的词Vi在主题为Di下的分布概率，yi,Di表示待匹配文本句B中的词Vi在主题为Di下的分布概率，LA表示待匹配文本句A中词的总数，LB表示待匹配文本句B中词的总数，m表示待匹配文本句A中的词与待匹配文本句B中的词组成的集合中词的总数。

2.根据权利要求1所述的方法，其特征在于，所述基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度，包括：将所述两个待匹配文本句在所述word2vec空间向量模型中做映射，分别得到所述两个待匹配文本句对应的文本向量；

基于所述文本向量计算所述两个待匹配文本句之间的语义相似度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述文本向量计算所述两个待匹配文本句之间的语义相似度，包括：按照如下公式计算所述两个待匹配文本句之间语义相似度：

其中，vecSim(A,B)表示待匹配文本句A与待匹配文本句B之间的语义相似度，表示待匹配文本句A在word2vec空间向量模型中对应的文本向量，表示待匹配文本句B在word2vec空间向量模型中对应的文本向量，n表示文本向量和的维度。

4.根据权利要求2所述的方法，其特征在于，在所述基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度之前，所述方法还包括：收集目标领域的文本句，以形成针对所述目标领域的语料库；

以所述语料库中的文本句为训练数据，生成所述word2vec空间向量模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度，包括：按照如下公式计算所述两个待匹配文本句之间的综合相似度：

其中，SenSim(A,B)表示待匹配文本句A与待匹配文本句B之间的综合相似度，vecSim(A,B)表示待匹配文本句A与待匹配文本句B之间的语义相似度，SimLDA(A,B)表示待匹配文本句A与待匹配文本句B之间的主题相似度，表示待匹配文本句A与待匹配文本句B之间的语义相似度对应的权重，表示待匹配文本句A与待匹配文本句B之间的主题相似度对应的权重。

6.根据权利要求1所述的方法，其特征在于，在基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度之前，或者基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度之前，所述方法还包括：对所述两个待匹配文本句进行分词处理。

7.一种文本相似度计算装置，其特征在于，所述装置包括：

语义相似度计算模块，用于基于word2vec空间向量模型计算两个待匹配文本句之间的语义相似度；

主题相似度计算模块，用于基于文档主题生成模型LDA计算所述两个待匹配文本句之间的主题相似度；

综合相似度计算模块，用于根据所述语义相似度和所述主题相似度确定所述两个待匹配文本句之间的综合相似度；

主题相似度计算模块具体用于：

按照如下公式计算所述两个待匹配文本句之间的主题相似度：

其中，SimLDA(A,B)表示待匹配文本句A与待匹配文本句B之间的主题相似度，Di表示LDA模型的主题集合中的第i个主题，表示待匹配文本句A中的词Vi在主题为Di下的分布概率，表示待匹配文本句B中的词Vi在主题为Di下的分布概率，LA表示待匹配文本句A中词的总数，LB表示待匹配文本句B中词的总数，m表示待匹配文本句A中的词与待匹配文本句B中的词组成的集合中词的总数。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1‑6中任一项所述的文本相似度计算方法。

9.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如权利要求1‑6中任一项所述的文本相似度计算方法。