欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018112301120
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于神经网络和注意力机制结合的文字识别系统,其特征在于,包括:特征提取模块、编码和注意力模块及解码模块,其中,特征提取模块采用的是卷积神经网络和双向长短期记忆网络相结合的结构,所述卷积神经网络用于提取文字图像的空间特征;所述双向长短期记忆网络用于提取文字的序列特征;

编码和注意力模块,用于对双向长短期记忆网络编码阶段的隐藏状态hi进行加权求和,获取不同时刻的注意力权值,然后通过注意力聚焦对当前时刻的输出作预测;

解码模块采用的是嵌套长短期记忆网络,解码部分是对编码生成的中间语义信息进行解析,解码需要利用注意力机制对编码的状态进行注意力聚焦,然后通过嵌套长短期记忆网络学习过去某时刻的解码信息,用于提取文本的序列信息,通过前一时刻的状态预测当前时刻的输出;

所述卷积神经网络模块包括卷积层1、池化层1、卷积组2、卷积层3、池化层2、卷积层4、池化层3、批量标准层、卷积层5、池化层4、批量标准层、Dropout层组成;

所述卷积神经网络详细参数设置如下:所述卷积层1的卷积核大小为5×5×64,步长为

1,扩充边缘为1,池化层均采用均值方法,其参数设置一样,皆为:核大小3×3,步长为2,扩充边缘为0;所述卷积组2包括并行的卷积核为7×7卷积层A和卷积核为5×5卷积层B、以及层叠在并行的卷积层后的卷积核为1×1×C的卷积层C1,C表示卷积核个数,调节C的大小可以降低维度,使计算速度加快,计算成本降低;所述卷积层3,4,5均采用大小3×3的卷积核,卷积核个数为128,128,256,卷积核步长为1,扩充边缘为1;所述批量标准层是对每个小批量数据进行标准化,将数据通过计算均值和方差,然后归一化,然后平移缩放参数;所述Dropout层可以看作一个模型的随机求和然后平均,就是将隐藏单元随机丢失;

所述编码和注意力模块具体包括:语义编码Ci是注意力模型的关键点,将双向循环神经网络生成的1×1024的特征向量序列进行语义编码,其目的是对编码阶段的隐藏状态hi进行加权求和,获取不同时刻的注意力权值,然后通过注意力聚焦对当前时刻的输出作预测,采用注意力机制取T的长度为20的向量的特征序列S进行特征聚焦,预测最后一个文字时,会将注意力集中在当前时刻的输入文本以及过去某一时刻的隐藏状态,注意力模型的权值会分布在不同时刻的隐藏状态,权值越大,注意力就越集中,注意力模型中[x1,x2,x3,...xT]表示当前时刻输入,At,i表示的是注意力的聚焦权值,Ct表示的是在t时刻对特征hi的加权值;

所述At,i、Ct具体公式如下表示:et,i=fatt(st‑1,hi)      (15)st=f(st‑1,yt‑1,Ct)  (16)yt=g(yt‑1,st,Ct)    (17)fatt(st‑1,hi)是关联程度函数,表示解码的t‑1时刻的状态与编码特征b的关联程度,yt表示解码模块的预测输出,g(yt‑1,st,Ct)表示概率输出函数;

所述解码模块采用的是嵌套长短期记忆网络,用于对注意力聚焦后的特征向量进行识别,其中第t时刻的输入就是第t次特征聚焦后的特征向量,嵌套长短期记忆网络使用标准的长短期记忆网络门选择性地进行读取、编写,解码后某一时刻t的预测输出yt由过去时刻预测输出yt‑1、解码器的隐藏状态st、注意力权值Ct共同决定,其记忆单元函数公式如下:Cet=IMt(ft☉Cet‑1,it☉gt) (18)ft表示前向传播的非线性函数表示,IMt表示嵌套长短期记忆网络的内部记忆状态,Cet‑1表示上一时刻t‑1记忆单元的状态,gt表示长短期记忆网络的门控函数;

最后,输出采用Softmax以概率的形式表示,然后选取概率值最大的作为预测结果,对于长短期记忆网络每个时刻t都有预测值,然后将值按照时刻顺序取结束符之前的字符组成字符串,就是所要的结果。

2.根据权利要求1所述的基于神经网络和注意力机制结合的文字识别系统,其特征在于,当输入图像的分辨率为800×600时,经过以上卷积核池化的过程,最后得到一个特征图,特征图的大小为1×256×50×37,得到一个1×256的特征序列,然后加了一个加速层,加速层是Caffe提供的优化方法,能够将卷积核所覆盖的小窗口区域内的像素转化为一行,然后存储在一个连续的内存空间。

3.根据权利要求1‑2之一所述的基于神经网络和注意力机制结合的文字识别系统,其特征在于,所述双向长短期记忆网络的参数维度为512,经过t=1,2,3,..T从左至右和从右至左两个方向的融合,其隐藏层的状态会叠加,长短期记忆网络不改变特征图的特征序列位置,具有平移不变性,其特征向量对应的原图感受也是不变的,输出维度是1×1024×50×37,双向长短期记忆网络的隐藏层包含文本序列的上下文状态,将其作为注意力模型的编码过程,其特征向量集合为[h1,h2,h3,...hT],其中每个时刻生成的特征向量hi由两个方*

向的特征组合而成hi=[hi,hi]。

4.一种基于神经网络和注意力机制结合的文字识别方法,其特征在于,包括,:特征提取步骤、编码和注意力步骤及解码步骤,其中,特征提取步骤采用的是卷积神经网络和双向长短期记忆网络相结合的结构,所述卷积神经网络用于提取文字图像的空间特征;所述双向长短期记忆网络用于提取文字的序列特征;

编码和注意力步骤,用于对双向长短期记忆网络编码阶段的隐藏状态hi进行加权求和,获取不同时刻的注意力权值,然后通过注意力聚焦对当前时刻的输出作预测;

解码步骤采用的是嵌套长短期记忆网络,解码部分是对编码生成的中间语义信息进行解析,解码需要利用注意力机制对编码的状态进行注意力聚焦,然后通过嵌套长短期记忆网络学习过去某时刻的解码信息,用于提取文本的序列信息,通过前一时刻的状态预测当前时刻的输出。