1.一种基于词权的文本摘要提取方法,其特征在于,包括:获取N条句子集合和标题T,N为大于0的整数;
对所述N条句子集合和标题T进行处理,得到长度为m的词典;
根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵;
根据句子相似度公式对所述长度为m的词权矩阵进行计算,得到相似度矩阵D;
根据句子与标题的相似度公式,计算所述N条句子集合和所述标题T的相似度,得到矩阵TD;
根据句子权重计算公式和所述相似度矩阵D,得到收敛值矩阵WD;
根据所述矩阵TD和所述收敛值矩阵WD的乘积,得到句子权重值;
确定目标句子权重值大于预置阈值对应的文本为摘要,所述目标句子权重值为所述句子权重值的子集。
2.根据权利要求1所述的方法,其特征在于,所述词权公式为:其中,wij为第i个句子中第j个词,m为所有句子互不相同的词典数,tfij为词wij的词频,N为句子总数,Nwij出现词wij的句子数。
3.根据权利要求1所述的方法,其特征在于,所述句子相似度公式为:其中,c∈m,a,b∈N,Sa表示句子a,Sb表示句子b,xc表示句子Sa的第c维特征,yc表示句子Sb的第c维特征,m为所有句子互不相同的词典数,N句子总数。
4.根据权利要求1所述的方法,其特征在于,所述句子与标题的相似度公式为:TSi=1+sim(T,Si)*h,
其中,i∈N,T为标题向量,Si表示第i个句子的向量,h为调整系数,取值在(0,1)之间。
5.根据权利要求1所述的方法,其特征在于,所述句子权重计算公式为:其中,d为阻尼系数,N为句子总数,In(Sj)表示指向句子Sj的集合,Out(Sj)表示句子Sj所指向的集合,wij句子i和句子j的连接权重,wjk由句子j指向句子k的连接权重,ws(Si)表示第i个句子的权重。
6.根据权利要求1‑4中任一项所述的方法,其特征在于,对所述N条句子集合和标题进行处理,得到长度为m的词典,包括:对所述N条句子集合和标题进行分词,并清除停用词,得到所述长度为m的词典。
7.根据权利要求1‑4中任一项所述的方法,其特征在于,所述方法还包括:对所述长度为m的词权矩阵进行向量化;
所述根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵,包括:根据所述词权公式,对向量化后的所述长度为m的词典进行计算,得到所述长度为m的词权矩阵。
8.一种计算装置,其特征在于,包括:
获取模块,用于获取N条句子集合和标题T,N为大于0的整数;
第一得到模块,用于对所述N条句子集合和标题T进行处理,得到长度为m的词典;
第二得到模块,用于根据词权公式对所述长度为m的词典进行计算,得到长度为m的词权矩阵;
第三得到模块,用于根据句子相似度公式对所述长度为m的词权矩阵进行计算,得到相似度矩阵D;
第四得到模块,用于根据句子与标题T的相似度公式,计算所述N条句子集合和所述标题的相似度,得到矩阵TD;
第五得到模块,用于根据句子权重计算公式和所述相似度矩阵D,得到收敛值矩阵WD;
第六得到模块,用于根据所述矩阵TD和所述收敛值矩阵WD的乘积,得到句子权重值;
确定模块,用于确定目标句子权重值大于预置阈值对应的文本为摘要,所述目标句子权重值为所述句子权重值的子集。
9.一种计算装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1‑7中任一项所述的基于词权的文本摘要提取方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基于词权的文本摘要提取方法的步骤。