欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020102176954
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种关键词提取方法,其特征在于,所述关键词提取方法应用于专利文本,所述方法包括:输入专利文本;

根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;

根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;

将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。

2.如权利要求1所述的方法,其特征在于,所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集之前,还包括:定义所述专利文本的标签词以及所述标签词的抽取位置对应关系,所述标签词用于表征专利信息,所述标签词的抽取位置对应关系表示所述标签词所指向的词语抽取位置;

所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集,包括:根据所述标签词以及所述标签词的抽取位置对应关系,利用第二预设模型抽取所述标签词所对应的抽取位置上的词语,所述抽取位置包括前向位置和/或后向位置;

将抽取到的词语作为所述专利文本的专利要素集。

3.如权利要求1或2所述的方法,其特征在于,所述第一预设模型为主题模型;所述根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集,包括:将所述专利文本进行文本预处理,以建立半结构化词语集合,所述半结构化词语集合包括预设词性的词语;

通过所述主题模型确定所述半结构化词语集合中每个词语的主题分布,所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率;

根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值;

根据每个词语的权重值得到关键词候选集。

4.如权利要求1或2所述的方法,其特征在于,将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合,包括:利用所述第一预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第一权重值计算,并根据第一权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第一排列顺序;

用所述第二预设模型对所述关键词候选集与所述专利要素集中的各个词语进行第二权重值计算,并根据第二权重值计算结果确定所述关键词候选集与所述专利要素集中的各个词语的第二排列顺序;

根据波达计数法Borda投票机制、第一排列顺序以及第二排列顺序,选取前TopS的词语;

根据所述前TopS的词语生成所述专利文本的关键词集合。

5.如权利要求1所述的方法,其特征在于,所述第二预设模型包括双向长短期记忆网络条件随机场BILSTM-CRF模型。

6.一种终端,其特征在于,包括用于执行如权利要求1-5任一权利要求所述的方法的模块。

7.一种终端,其特征在于,包括处理器、通信接口、显示屏和存储器,所述处理器、通信接口、显示屏和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。

9.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如权利要求1-5任一项所述的方法。