知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种细粒度中文命名实体识别方法

￥32200

专利号： 2022116083776

申请人：成都信息工程大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种细粒度中文命名实体识别方法，其特征在于，包括：S1、基于无标注语料训练BERT中文模型，得到训练好的BERT中文预训练模型；

S2、获取中文细粒度命名实体的语料数据，对所述语料数据做预处理操作后进行命名实体标注，得到中文细粒度命名实体识别数据集；

S3、将所述中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中，提取各batch数据的Embedding词向量；

S4、获取特征向量之间深层特征；

S5、获取长文本之间依赖的离散特征；

S6、获取全局最优命名实体序列；

S7、获取模型综合损失，得到训练好的综合模型；

S8、利用训练好的综合模型，对中文细粒度命名实体文本进行命名实体识别，得到识别结果；

提取各batch数据的Embedding词向量的方法包括：S301、提取所述中文细粒度命名实体识别数据集中，各batch数据内最长文本的数据长度；

S302、以所述数据长度作为batch数据的batch size；

S303、使用训练好的BERT中文预训练模型提取各batch数据的Embedding词向量；

获取模型综合损失的方法包括：

S701、基于IDCNN网络的训练预测结果，计算focalloss；

S702、通过概率建模方法学习最优条件，为条件随机场模型损失和focal loss赋予权重；

S703、对不同权重进行平衡，得到模型综合损失；

得到的模型综合损失为：

式中，L为综合损失，L1为条件随机场模型损失，L2为当前样本数据预测的focalloss，σ1为条件随机场模型损失的权重，σ2为focalloss的权重。

2.根据权利要求1所述的一种细粒度中文命名实体识别方法，其特征在于，获取特征向量之间深层特征的方法包括：将得到的Embedding词向量输入Bi‑GRU模型进行深层特征提取，由Bi‑GRU模型输出深层特征词向量；所述Bi‑GRU模型包括前项GRU组件、后向GRU组件。

3.根据权利要求2所述的一种细粒度中文命名实体识别方法，其特征在于，获取长文本之间依赖的离散特征的方法包括：S501、将所述深层特征词向量输入IDCNN网络进行离散特征提取；

S502、将提取的离散特征通过IDCNN网络内部的全连接层进行综合，输出数据整体特征。

4.根据权利要求3所述的一种细粒度中文命名实体识别方法，其特征在于，所述IDCNN网络中的激活函数为：式中，Y为激活函数输出，x为上层神经网络的输出，α为训练中自定义的超参数，e为自然对数。

5.根据权利要求3所述的一种细粒度中文命名实体识别方法，其特征在于，获取全局最优命名实体序列的方法包括：S601、将所述数据整体特征通过条件随机场模型CRF进行全局归一化；

S602、通过CRF内部的状态函数获取输入序列与当前状态之间的关系、通过CRF内部的转移函数获取输出状态与当前状态之间的关系；

S603、得到当前序列的转移特征、以及条件随机场模型损失；

S604、通过Viterbi算法对当前序列进行解码，获取标注的最优路径。

6.根据权利要求1所述的一种细粒度中文命名实体识别方法，其特征在于，通过如下公式计算focalloss：L2＝‑(1‑pt)γlog(pt)；式中，pt为当前预测值与类别t的接近程度，γ为大于0的超参数，L2为当前样本数据预测的focalloss。

7.根据权利要求6所述的一种细粒度中文命名实体识别方法，其特征在于，pt的取值方法为：若当前样本数据的真实标签为1，则pt＝p；否则，pt＝1‑p；其中，p为模型预测的概率。

推荐专利

一种基于多信息增强的中文命名实体识别算法

发明专利

面议

一种基于大数据的细粒度商品命名实体识别方法

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们