知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种融合主题信息的关键词生成方法

面议

专利号： 2021105254837

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-03-25

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种融合主题信息的关键词生成方法，其特征在于，包括如下步骤：步骤1：输入语料库C并进行预处理得到向量模型Xbow，Xbow＝{T1,T2,...,TN}为C中所有文档的向量空间表示模型，N为语料库文档数量；

步骤2：采用word2vec对Xbow预训练得到词向量Xseq；

步骤3：将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ；

步骤4：将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M；

步骤5：将文档‑主题分布θ和编码M输入，采用加入注意力机制和复制机制的循环神经网络对其进行解码，并生成关键词的概率分布；

步骤5.1：将文档‑主题分布θ输入单向门控循环单元网络GRU，用于添加主题信息θ，具体公式为sj＝fGRU([zj；θ],sj‑1)，其中，zj为第j个解码器的输入，sj为解码器的第j个时刻的隐藏状态，sj‑1为解码器的前一个时刻的隐藏状态；

步骤5.2：对序列M进行解码，通过注意力机制捕获重要信息，预测第j个关键词，其注意力分布为α'ij；

步骤5.3：解码器根据注意力分布α'ij，即单词的概率分布，来找到下一个单词，通过注意力分布来产生一个编码器隐藏状态的加权和，作为主题感知的上下文向量为cj，步骤5.4：将上下文向量cj与解码器的第j个时刻的隐藏状态sj连接，通过两个线性层，用一个softmax函数来得到词汇表中所有词的概率分布pgen：pgen＝softmax(Wgen[sj；cj]+bgen)，其中，Wgen，bgen是可训练参数；

步骤5.5：输入主题敏感的上下文向量cj、解码器的第j个时刻的隐藏状态sj，计算时间步长为j的生成概率λj，具体公式如下：λj＝sigmoid(Wλ[zj；sj；cj；θ]+bλ)，其中，Wλ，bλ是可训练参数，λj∈[0,1]，λj被用作一个软开关，用于判断是从原文中直接提取关键词，还是原文档以外的语料库中生成关键词；

步骤5.6：将生成词汇与原文档中出现的所有单词合并为扩展词汇表，它的概率分布为pj；

步骤5.7：文档‑主题分布θ和编码M作为输入，生成关键词Y的概率；

步骤6：采用集束搜索，生成关键词的排名列表。

2.根据权利要求1所述的融合主题信息的关键词生成方法，其特征在于，所述步骤3具体过程为：

步骤3.1：通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z，Z服从N(μ,σ)分布：μ＝fμ(fε(Xbow)),logσ＝fσ(fε(Xbow))，其中，Z表示Xbow的主题，μ和σ均是通过神经网络生成

2 2

的，N(μ,σ)来表示各向同性的高斯分布，σ是协方差矩阵的对角线，f*(·)是具有RuLU激活函数的多层感知机；

步骤3.2：使用softmax函数，构建文档‑主题分布θ＝softmax(W1Z)，作为文档的主题分布向量来辅助关键词的生成，其中，W1为L*K的矩阵，L为Z的维数，K为主题数。

3.根据权利要求1所述的融合主题信息的关键词生成方法，其特征在于，所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词，依次按照如下原理进行编码：步骤4.1：进行第一层序列编码层，使用两个双向门控循环单元网络GRU分别对xi和tj进行编码，将上下文的语义信息整合到每个单词的表示中：其中，xi为语料库中文档的第i个单词的向量，tj为该文档标题的第j个标题词的向量；

ui和vj分别为第i个单词和第j个标题词的上下文向量；→表示向右的编码方向，←表示向左的编码方向；

步骤4.2：第二层为基于注意力机制的匹配层，用于聚合标题中的每个单词的相关信息，聚合操作具体为：

si,j＝(ui) W1vj

其中，ci是文档x的第i个单词的聚合后的信息向量，si,j是ui和vj未归一化的注意力权重，αi,j是ui和vj的归一化的注意力权重；

步骤4.3：第三层为合并层，将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入，获得以标题为导向的上下文表示，存储为M：其中，λ∈(0,1)是相应的超参数。

4.根据权利要求3所述的融合主题信息的关键词生成方法，其特征在于，所述注意力分布α'ij为：其中，vα,Wα,bα是可训练参数，fα(·)表示第i个词与第j个待预测目标词之间的语义信息。

5.根据权利要求3所述的融合主题信息的关键词生成方法，其特征在于，所述步骤5.6中的概率分布pj为：

其中，若是生成的原文档中没有的单词，则pgen＝0；

6.根据权利要求3所述的融合主题信息的关键词生成方法，其特征在于，所述关键词Y的概率具体为：

其中，Y＜j＝，Y为生成的关键词，X为语料中的词汇，Pr(yj|Y＜j,M,θ)用pj表示，是单词在扩展词汇表的分布。