知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种混合特征融合的中文化工文献分词方法

面议

专利号： 2020108426065

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-12-19

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种混合特征融合的中文化工文献分词方法，其特征在于，包括如下步骤：(1)从化工科学文献挖掘中文化工文献数据，并对文献数据进行预处理，得到清洗后语料T1，提取关键词构建化学技术行业中英文关键词库K；

(2)使用化学技术行业中英文关键词库K对挖掘的语料库数据进行分词标记和词性标注，得到化工文献语料T2，构建中英文词典V，训练并得到word2vec语言模型W；

(3)输入化工文献语料T2，处理每一条文本记录，通过语言模型W处理得到字向量序列S，分别输入到预先构建的CNN和BiLSTM模型中抽取局部特征Fc和上下文特征Fb，并融合特征Fc和Fb，得到新的特征F；

(4)将步骤(3)得到新的特征F输入CRF模型，利用邻居标签信息提高标签标记准确性，训练混合特征融合的端到端中文分词模型，得到训练后的模型M；

(5)开放word2vec语言模型接口API，获取用户输入带分词文本T′，调用W模型接口对文本进行处理得到对应词向量；

(6)开放中文分词模型接口API，调用M模型接口，利用混合特征融合的中文分词模型M处理得到分词结果；封装分词结果返还WEB平台，通过ECharts对实体信息可视化返回用户，用户判断分词准确性并反馈处理，分词过程结束。

2.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(1)包括以下步骤：(11)挖掘中文化工文献数据，包括文献摘要和关键词；

(12)对挖掘的化工文献数据进行去重，去除标点符号及特殊字符，得到清洗后语料库T1，其中T1＝{t1，t2，t3，…，tN}，N为语料库大小；

(13)提取关键词构建化学技术行业中英文关键词库K。

3.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(2)包括以下步骤：(21)将步骤(1)中清洗后的语料库T1输入到自动化分词和词性标注程序中；

(22)定义循环变量i1，赋初始值为1，遍历清洗后语料库T1；

(23)如果i1≤N则跳转到步骤(24)，否则跳转到步骤(26)；

(24)使用化学技术行业中英文关键词库K对记录T1i1进行分词标记和词性标注，得到(word，label)二元组，word表示单词，label表示词性标记；

(25)i1＝i1+1，转到步骤(23)；

(26)使用YEDDA工具对标注后的数据进行补充标注，手动标识未匹配的关键词；

(27)构建中英文词典V；

(28)将分词后文本输入word2vec语言模型，训练并得到word2vec语言模型W。

4.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(3)包括以下步骤：(301)将化工文献语料T2输入到步骤(2)获得的语言模型W中；

(302)定义循环变量i2，赋初始值为1，遍历化工文献语料T2；

(303)如果i2≤N则跳转到步骤(304)，否则跳转到步骤(312)；

(304)对文本T2i2进行文本字符化，使文本切分为Max_len个字符，对超过长度Max_len的字符进行截断，长度不足以字符0标识；

(305)将文本T2i2通过word2vec语言模型W映射编码，得到字符w(i)组成的文本映射到文本矩阵s(i)＝w(1)，w(2)，...，w(i)；

(306)输入文本矩阵s(i)，对其进行卷积操作，提取s(i)的局部特征C，计算公式为ci＝RELU(X·W(i：i+r-1)+b)，其中，X为r×k的滤波器，b为偏置；W(i：i+r-1)为s(i)从i到i+r-1的r行向量；ci表示通过卷积操作得到的局部特征；

(307)通过最大池化的方法提取值最大的特征代替整个局部特征，以大幅降低特征向量的大小：di＝max(C)，其中C＝{c1，c2，...，cr}；

(308)最后将所有池化后得到的向量输入全连接层进行组合输出特征向量Fc(i2)＝{d1，d2，...，dMax_len}；

(309)输入文本矩阵s(i)，对其进行卷积操作，提取s(i)的上下文特征L；

(310)分别计算t时刻LSTM前向语义输出Lf(t)和后向语义输出Lb(t)；

(311)拼接隐藏层单向和反向输出Lt＝Lf(t)+Lb(t)，来捕获文档句子前后之间的语义信息，得到全局性文本特征Fb(i2)＝{L1，L2，...，LMax_len}；

(312)i2＝i2+1，转至步骤(303)；

(313)得到包含局部特征的特征向量集合Fc和包含上下文特征向量集合Fb；

(314)将两个特征向量融合以获得新的向量序列F＝concat(Fc，Fb)。

5.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(4)包括以下步骤：(41)步骤(3)得到的特征F及对应的序列标记Y作为CRF模型的输入；

(42)关注句子级别利用邻居标签信息，拟合F和Y之间的关系：Z(x)为归一化因子，可表示为Z(x)＝∑yexp(∑i，kvitk(yi-1，yi，x，i)+∑i，luisl(yi，x，i))，其中，tk是状态转移函数，sl是发射函数，vk和ui分别为tk和sl对应的权值；

(43)得到混合特征融合的端到端中文分词模型M。

6.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(5)包括以下步骤：(51)用户输入待分词文本到中文分词模型M；

(52)开放word2vec语言模型接口API；

(53)创建线程池Thread Pool1；

(54)判断线程池Thread Pool1所有任务是否执行完毕；

(55)创建工作线程Child Thread1；

(56)处理待分词文本，创建词向量映射任务Task1；

(57)对待抽取领域专家文本进行预处理，获得词向量w，词向量映射任务结束；

(58)结束Child Thread1工作线程；

(59)关闭Thread Pool1线程池，词向量映射完成。

7.根据权利要求1所述的混合特征融合的中文化工文献分词方法，其特征在于，所述步骤(6)包括以下步骤：(601)开放中文分词模型接口API；

(602)创建线程池Thread Pool2；

(603)判断线程池Thread Pool2所有任务是否执行完毕；

(604)创建工作线程Child Thread2；

(605)输入步骤(5)中用户输入文本处理后的词向量w，创建分词任务Task2；

(606)调用M模型接口，利用混合特征融合的中文分词模型M处理得到分词结果；

(607)封装分词结果返还WEB平台，通过ECharts对实体信息可视化返回用户；

(608)用户判断分词结果准确性，若准确，转至步骤(610)，若不准确，转至步骤(609)；

(609)用户输入化工专业术语参考分词词汇，保存至化学技术行业中英文关键词库K；

(610)转至步骤(606)，更新分词结果，分词任务Task2结束；

(611)结束Child Thread2工作线程；

(612)关闭Thread Pool2线程池；

(613)系统分词过程结束。

推荐专利

结合GPU-DMM与文本特征的短文本关键词提取方法

发明专利

￥35800

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们