1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;
计算相同词项在弹幕A和弹幕B文本中的所占比例;
计算基于相同词项词频的弹幕A和弹幕B的文本相似度;
将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;
对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。
2.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:所述计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。
3.如权利要求2所述的一种弹幕文本相似度计算方法,其特征在于:所述计算基于相同词项词频的弹幕A和弹幕B的文本相似度,计算公式为:其中,Simtf(A,B)表示基于相同词项词频的弹幕A和弹幕B的文本相似度。
4.如权利要求3所述的一种弹幕文本相似度计算方法,其特征在于:所述基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度,计算公式为:其中,simword2vec(A,B)表示弹幕A和弹幕B在文本空间的相似度, 表示弹幕A通过word2vec模型映射后的空间向量, 表示弹幕B通过word2vec模型映射后的空间向量,p表示 的维数。
5.如权利要求4所述的一种弹幕文本相似度计算方法,其特征在于:所述对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度,计算公式为:Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)其中,Sim(A,B)表示弹幕A和弹幕B最终相似度,λ为调整系数,取值范围为[0.6,0.8]。
6.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:当弹幕A和弹幕B的最终相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。
7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;
计算相同词项在弹幕A和弹幕B文本中的所占比例;
计算基于相同词项词频的弹幕A和弹幕B的文本相似度;
将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;
对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。
8.一种电子设备,其特征在于,所述电子设备包括:
分词单元,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;
比例计算单元,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;
第一文本相似度计算单元,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;
第二文本相似度计算单元,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;
最终相似度计算单元,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。
9.一种弹幕文本相似度计算系统,其特征在于,包括:
分词模块,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;
比例计算模块,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;
第一文本相似度计算模块,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;
第二文本相似度计算模块,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;
最终相似度计算模块,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。
10.如权利要求9所述的一种弹幕文本相似度计算系统,其特征在于:所述比例计算模块计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。