欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113000931
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-27
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,包括:实时获取待分类的问句数据,将待分类的问句数据输入到训练好的问句分类模型中,得到分类后的数据;问句分类模型包括BERT模型和基于注意力机制的独立循环神经网络IndRNN模型;

对问句分类模型进行训练的过程包括:

S1:获取社区问答问句原始数据集,对社区问答问句原始数据集进行预处理,得到训练集、验证集和测试集;

S2:将训练集中的数据输入到BERT模型中提取特征,得到含有语义特征的序列向量;

S3:将含有语义特征的序列向量输入到基于注意力机制的IndRNN模型中,得到独立循环神经网络隐藏状态;

S4:将独立循环神经网络的隐藏状态进行叠加,在进行叠加过程中采用注意力机制捕获上下文的相关信息,得到神经网络输出结果;

S5:将神经网络的输出结果输入到softmax层,得到分类结果;

S6:根据分类结果计算基于注意力机制的IndRNN模型的损失函数;

S7:采用Adam算法对损失函数进行优化,对基于注意力机制的IndRNN模型反向传播训练,不断修改、更新各层神经元的参数值以及连接权重;采用Adam算法对损失函数进行优化m的过程包括:从训练集中采集m个样本{x},样本对应的目标为实际标签的概率y;计算目标y对应的梯度σ;根据对应的梯度σ对参数进行更新和修正;进行更新和修正的内容包括:更新有偏一阶矩估计:s←ρ1s+(1‑ρ1)g

2

更新有偏二阶矩估计:r←ρ2r+(1‑ρ2)g

修正一阶矩的偏差:

修正二阶矩的偏差:

计算更新:

应用更新:θ←θ+Δθ

其中,s表示偏一阶矩估计,ρ1表示矩估计的指数衰减速率,r表示偏二阶矩估计,ρ2表示矩估计的指数衰减速率,表示修正的一阶矩偏差, 表示t时刻指数衰减速率,表示修正的二阶矩偏差, 表示t时刻指数衰减速率,θ表示参数向量,Δθ表示计算得到的偏差值,∈表示步长,δ表示常数;

S8:将验证集中的数据输入到问句分类模型中,确定模型参数的最佳值,使误差值达到最小,完成问句分类模型的训练;

S9:将测试集中的数据输入到训练好的问句分类模型中,得到预测结果。

2.根据权利要求1所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,对社区问答问句原始数据集进行预处理的过程包括:对数据集进行清洗,去除数据集中重复和残缺的问句语句;将清洗后的数据集按70%:15%:15%的比例划分为训练集、验证集和测试集。

3.根据权利要求1所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,得到含有语义特征的序列向量的过程包括:S21:将训练集中的数据划分为标签和内容,再将划分后的内容数据进行分词处理,得到分词文本序列;

S22:对分词文本序列进行全词掩码处理,对处理好后序列的头部添加一个特殊标记[CLS],每个句子采用标记[SEP]分隔;

S23:将标记后的序列向量输入到双向Transformer编码器中提取特征向量;

S24:采用多头注意力机制对提取的特征向量进行拼接,得到含有语义特征的序列向量。

4.根据权利要求3所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,采用多头注意力机制对提取的特征向量进行拼接的公式为:O

MultiHead(Q,K,V)=Concat(head1,…,headn)WQ K V

headi=Attention(QWi ,KWi ,VWi)其中,MultiHead(.)表示多头注意力head数;Q表示查询向量,K表示键向量、V表示值向O量;Concat(.)表示拼接不同的注意力;headi表示不同的注意力;W表示MultiHead线性变换的参数。

5.根据权利要求1所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,得到独立循环神经网络隐藏状态的过程为:S31:神经元cell获取语义特征的序列向量xt和上一个神经元输出的循环神经网络隐藏状态ht‑1;

S32:将参数矩阵u和上一个神经元的输出ht‑1进行点乘运算,将参数矩阵w与语义特征的序列向量xt相乘,将上述点乘运算结果与乘法运算结果相加,并加上偏置项b,得到待激活序列向量;

S33:将待激活序列向量传给激活函数σ得到循环神经网络隐藏状态ht;

S34:输出独立循环神经网络的隐藏状态ht并将其传给下一个神经元cell;计算独立循环神经网络隐藏状态的公式为:hit=σ(w·xit+u⊙hi(t‑1)+b)其中,hit表示当前第i位置t时刻神经元输出,σ(.)表示激活函数,w表示参数矩阵,u表示参数矩阵,hi(t‑1)表示第i位置的上一个神经元输出,⊙表示点乘,b表示偏置项。

6.根据权利要求1所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,得到隐藏状态的过程包括:S41:将独立循环神经网络的隐藏状态进行双向叠加,得到当前隐藏层状态hi;

其中, 和 表示前向和后向IndRNN隐藏状态;Ti表示i位置单词经过BERT层输出的向量;n表示单词个数;hi表示当前隐藏层状态;

S42:根据当前隐藏层状态hi计算当前单词注意力权重ai,计算公式为:ui=tanh(Wshi+bs)

其中hi为当前隐藏层状态;ui为hi的隐藏表示;Ws为权重矩阵;bs为偏置项;uw表示词级上下文向量,随机生成,作为模型的训练参数;n表示单词数量;ai表示问题文本中第i个单词的权重;

S43:根据注意力权重向量ai和当前隐藏层状态hi计算得到注意力向量Si,计算公式为:S44:向量Si输入到softmax层,得到预测结果。

7.根据权利要求6所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,预测结果的表达式为:pi=softmax(wsSi+bs)

其中,pi表示预测结果,softmax(.)表示对数据进行归一化处理,ws表示权重矩阵,Si表示IndRNN输出的向量,bs表示偏移量。

8.根据权利要求1所述的一种基于BERT和独立循环神经网络的问句分类方法,其特征在于,损失函数为:其中,x表示样本,y表示实际标签的概率,pi表示预测概率,n表示样本总数量。