欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021114559514
申请人: 江西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种专利文本多标签分类方法,其特征在于,包括:S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集;

S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵;

S3根据所述训练集中IPC标签的共现关系得到标签关联矩阵;

S4根据所述第一标签表示矩阵,将所述训练集中IPC标签向量化得到第二标签表示矩阵;

S5将所述第二标签表示矩阵、标签关联矩阵输入到图神经网络中得到融合标签关联信息的第三标签表示矩阵;

S6提取专利文本特征得到文本特征编码表示E;

S7将所述文本特征编码表示E与所述第三标签表示矩阵进行矩阵乘法运算得到标签分数矩阵,将所述标签分数矩阵输入到激活层得到每个标签的概率;

S8将所有概率大于设定阈值x的标签预测序列作为多标签分类结果;

S9将所述标签预测序列与训练集中对应文本的原始标签序列代入损失函数中计算误差,并利用反向传播算法优化模型参数,并保存参数优化后的模型;

S10待分类专利文本经过S5‑S8得到多标签分类结果;

所述IPC标签描述数据集,格式为{IPC标签,标签描述};

所述训练集的格式为{IPC标签,专利文本};

所述输入数据包括IPC描述数据和专利数据,其中,IPC描述数据包括不同层级的IPC标签及对应的标签描述;专利数据包括专利IPC标签、标题、摘要、权利要求和说明书。

2.如权利要求1所述的一种专利文本多标签分类方法,其特征在于,所述S1预处理输入数据得到IPC标签描述数据集和包含专利文本的训练集,包括:选择用于多标签分类的IPC标签层级、专利文本小节;

根据所述IPC标签层级对输入的IPC描述数据进行数据清洗得到IPC标签描述数据集;

根据所述IPC标签层级、专利文本小节对输入的专利数据进行数据清洗、抽取得到专利文本的训练集;

所述IPC标签层级为部、大类、小类、大组、小组中的任意一个;

所述专利文本小节为标题、摘要、权利要求书、说明书中的任意一个或多个的组合。

3.如权利要求2所述的一种专利文本多标签分类方法,其特征在于,所述对输入的IPC描述数据进行数据清洗,包括:

删除IPC描述中的与其他类别区分的注释、版本信息;

根据所述IPC标签层级,将IPC标签层级之前的IPC标签对应的标签描述进行叠加形成更长的文字描述作为标签描述。

4.如权利要求3所述的一种专利文本多标签分类方法,其特征在于,所述对输入的专利数据进行数据清洗、抽取,包括:使用中文停用词表和自定义词典去除专利文本中的停用词;

根据所述专利文本小节从标题、摘要、权利要求和说明书选择出用于多标签分类的文本内容;

将IPC标签与所述IPC标签层级进行对齐得到与所述IPC标签层级一致的IPC标签。

5.如权利要求4所述的一种专利文本多标签分类方法,其特征在于,所述S2将所述IPC标签描述数据集中的所有IPC标签向量化得到第一标签表示矩阵,包括:使用预训练语言模型将所述IPC标签描述数据集中所有IPC标签对应的标签描述进行向量表示得到第一标签表示矩阵。

6.如权利要求5所述的一种专利文本多标签分类方法,其特征在于,所述标签关联矩阵,还可以将对角线数值化为1。

7.如权利要求6所述的一种专利文本多标签分类方法,其特征在于,所述图神经网络,为图卷积网络或图注意力网络。

8.如权利要求7所述的一种专利文本多标签分类方法,其特征在于,所述S6提取专利文本特征得到文本特征编码表示E,包括:读取训练集中的专利文本并使用预训练语言模型进行向量表示,得到原始文本编码表示E1;

将所述E1输入到双向循环神经网络中得到序列编码表示E2;

将所述E1输入到卷积神经网络中得到局部编码表示E3;

将所述E1、E2和E3进行编码拼接得到文本特征编码表示E。

9.如权利要求8所述的一种专利文本多标签分类方法,其特征在于,所述双向循环神经网络,为BiRNN、BiLSTM或BiGRU。

10.如权利要求9所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型是相同的预训练语言模型。

11.如权利要求10所述的一种专利文本多标签分类方法,其特征在于,所述S2和S6中的预训练语言模型,选择上下文无关的预训练语言模型或上下文相关的预训练语言模型。

12.如权利要求1 11任一所述的一种专利文本多标签分类方法,其特征在于,还包括:~

使用多个不同的预训练语言模型分别进行S1‑S10得到多个多标签分类结果和所述多标签分类结果中各个标签的概率;

使用集成学习策略来利用多个多标签分类结果和所述多标签分类结果中各个标签的概率得到待分类专利文本的最终多标签分类结果。

13.如权利要求12所述的一种专利文本多标签分类方法,其特征在于,所述设定阈值x,取值范围是0.5≤x<1;

其中,IPC标签层级越高,设定阈值x的取值范围越接近1;IPC标签层级越低,设定阈值x的取值范围越接近0.5。