欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103904092
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注,包括以下步骤:步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词;

步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练;

步骤3,将样本语料中的文本按照已训练的Word2Vec模型转换成代表词特征的词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;将样本语料中的标签转成one-hot形式作为神经网络的输出;神经网络的输出层采用softmax函数进行归一化,使神经网络的分类结果为词汇属于非命名实体及各类命名实体的概率,调整神经网络中的结构、深度、节点数、步长、激活函数、初始值参数以及选取激活函数训练神经网络;

步骤4,将神经网络输出的预测矩阵重新窗口化,将待标注词的上下文预测信息作为条件随机场模型中待标注词的实际分类的关联点,根据训练语料利用EM算法,计算出各边的期望值,训练出对应的条件随机场模型;

步骤5,识别时,首先将待识别文本按照已训练的Word2Vec模型转换成代表词特征的词向量,若Word2Vec模型中不包含对应的词汇,则采用增量学习、获取词向量、回溯词向量空间的方法将该词转换为词向量,并对词向量窗口化,将窗口w乘词向量长度d的二维矩阵作为神经网络的输入;然后将神经网络得到的预测矩阵重新窗口化放入训练好的条件随机场模型中进行消歧,获得待识别文本中最终的命名实体标注。

2.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述Word2Vec工具的参数如下:词向量长度选择200,迭代次数25次,初始步长0.025,最小步长0.0001,选用CBOW模型。

3.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:所述神经网络的参数如下:隐藏层2层,隐藏节点数150个,步长0.01,batchSize选取

40,激活函数使用sigmoid函数。

4.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:将样本语料中的标签转成one-hot形式的方法:将样本语料中的“ /o”、“ /n”、“ /p”标签相应的转化为命名实体标签“ /Org-B”、“ /Org-I”、“ /Per-B”、“ /Per-I”、“ /Loc-B”、“ /Loc-I”,再 转换成one-hot的形式。

5.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:词向量窗口化的窗口大小为5。

6.根据权利要求1所述基于神经网络概率消歧的网络文本命名实体识别方法,其特征在于:神经网络训练时,从样本数据中抽取十分之一的词汇不参与神经网络的训练,作为神经网络的衡量标准。