欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018112090897
申请人: 武汉斗鱼网络科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-03-07
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于词权的文本摘要提取方法,其特征在于,包括:获取N条句子集合和标题T,N为大于0的整数;

对所述N条句子集合和标题T进行处理,得到长度为m的词典;

根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵;

根据句子相似度公式对所述长度为m的词权矩阵进行计算,得到相似度矩阵D;

根据句子与标题的相似度公式,计算所述N条句子集合和所述标题T的相似度,得到矩阵TD;

根据句子权重计算公式和所述相似度矩阵D,得到收敛值矩阵WD;

根据所述矩阵TD和所述收敛值矩阵WD的乘积,得到句子权重值;

确定目标句子权重值大于预置阈值对应的文本为摘要,所述目标句子权重值为所述句子权重值的子集。

2.根据权利要求1所述的方法,其特征在于,所述词权公式为:其中,wij为第i个句子中第j个词,m为所有句子互不相同的词典数,tfij为词wij的词频,N为句子总数,Nwij出现词wij的句子数。

3.根据权利要求1所述的方法,其特征在于,所述句子相似度公式为:其中,c∈m,a,b∈N,Sa表示句子a,Sb表示句子b,xc表示句子Sa的第c维特征,yc表示句子Sb的第c维特征,m为所有句子互不相同的词典数,N句子总数。

4.根据权利要求1所述的方法,其特征在于,所述句子与标题的相似度公式为:TSi=1+sim(T,Si)*h,

其中,i∈N,T为标题向量,Si表示第i个句子的向量,h为调整系数,取值在(0,1)之间。

5.根据权利要求1所述的方法,其特征在于,所述句子权重计算公式为:其中,d为阻尼系数,N为句子总数,In(Sj)表示指向句子Sj的集合,Out(Sj)表示句子Sj所指向的集合,wij句子i和句子j的连接权重,wjk由句子j指向句子k的连接权重,ws(Si)表示第i个句子的权重。

6.根据权利要求1‑4中任一项所述的方法,其特征在于,对所述N条句子集合和标题进行处理,得到长度为m的词典,包括:对所述N条句子集合和标题进行分词,并清除停用词,得到所述长度为m的词典。

7.根据权利要求1‑4中任一项所述的方法,其特征在于,所述方法还包括:对所述长度为m的词权矩阵进行向量化;

所述根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵,包括:根据所述词权公式,对向量化后的所述长度为m的词典进行计算,得到所述长度为m的词权矩阵。

8.一种计算装置,其特征在于,包括:

获取模块,用于获取N条句子集合和标题T,N为大于0的整数;

第一得到模块,用于对所述N条句子集合和标题T进行处理,得到长度为m的词典;

第二得到模块,用于根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵;

第三得到模块,用于根据句子相似度公式对所述长度为m的词权矩阵进行计算,得到相似度矩阵D;

第四得到模块,用于根据句子与标题T的相似度公式,计算所述N条句子集合和所述标题的相似度,得到矩阵TD;

第五得到模块,用于根据句子权重计算公式和所述相似度矩阵D,得到收敛值矩阵WD;

第六得到模块,用于根据所述矩阵TD和所述收敛值矩阵WD的乘积,得到句子权重值;

确定模块,用于确定目标句子权重值大于预置阈值对应的文本为摘要,所述目标句子权重值为所述句子权重值的子集。

9.一种计算装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1‑7中任一项所述的基于词权的文本摘要提取方法的步骤。

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基于词权的文本摘要提取方法的步骤。