欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018114598485
申请人: 喀斯玛汇智(无锡)科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;

计算相同词项在弹幕A和弹幕B文本中的所占比例;

计算基于相同词项词频的弹幕A和弹幕B的文本相似度;

将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;

对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。

2.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:所述计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。

3.如权利要求2所述的一种弹幕文本相似度计算方法,其特征在于:所述计算基于相同词项词频的弹幕A和弹幕B的文本相似度,计算公式为:其中,Simtf(A,B)表示基于相同词项词频的弹幕A和弹幕B的文本相似度。

4.如权利要求3所述的一种弹幕文本相似度计算方法,其特征在于:所述基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度,计算公式为:其中,simword2vec(A,B)表示弹幕A和弹幕B在文本空间的相似度, 表示弹幕A通过word2vec模型映射后的空间向量, 表示弹幕B通过word2vec模型映射后的空间向量,p表示 的维数。

5.如权利要求4所述的一种弹幕文本相似度计算方法,其特征在于:所述对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度,计算公式为:Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)其中,Sim(A,B)表示弹幕A和弹幕B最终相似度,λ为调整系数,取值范围为[0.6,0.8]。

6.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:当弹幕A和弹幕B的最终相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。

7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;

计算相同词项在弹幕A和弹幕B文本中的所占比例;

计算基于相同词项词频的弹幕A和弹幕B的文本相似度;

将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;

对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。

8.一种电子设备,其特征在于,所述电子设备包括:

分词单元,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;

比例计算单元,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;

第一文本相似度计算单元,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;

第二文本相似度计算单元,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;

最终相似度计算单元,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。

9.一种弹幕文本相似度计算系统,其特征在于,包括:

分词模块,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;

比例计算模块,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;

第一文本相似度计算模块,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;

第二文本相似度计算模块,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;

最终相似度计算模块,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。

10.如权利要求9所述的一种弹幕文本相似度计算系统,其特征在于:所述比例计算模块计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。