1.一种任意方向自然场景文本识别方法,其特征在于:包括以下步骤:
S1:首先使用高分辨分割网络HRNet作为基础框架提取文本的空间信息;
S2:然后使用卷积长短时记忆ConvLSTM模型提取文本的时空序列信息;
S3:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;
S4:网络对每个像素点进行37分类,将分类结果按照从左到右的顺序转换成文本。
2.根据权利要求1所述的任意方向自然场景文本识别方法,其特征在于:步骤S2中所述的ConvLSTM,是将长短时记忆LSTM中的状态转换层换为卷积层,所述LSTM的原理如下:LSTM有三个门,分别为遗忘门ft、记忆门it和输出门ot,LSTM中的门是一种让信息选择性通过的方法,由sigmoid激活函数跟元素点乘操作组成,sigmoid函数输出[0,1]之间的数,代表信息保留的比率,其中数值1代表信息全部保留,而0表示无信息保留。
3.根据权利要求2所述的任意方向自然场景文本识别方法,其特征在于:所述LSTM中遗忘门、记忆门和输出门的原理如下:所述遗忘门的作用是选择性的舍弃上一个单元状态ct-1的信息,即使用sigmoid激活函数作用于上一个隐藏层状态ht-1,输入状态xt,其计算公式如式(1)所示:ft=σ(wf·[ht-1,xt]+bf) (1)
所述记忆门的作用是选择性的保留临时状态 的信息,其计算公式如式(2),与式(1)一样,仍使用sigmoid激活函数作用于ht-1,xt,其中 如式(3)所示,其使用激活函数tanh将输入ht-1,xt转换成[-1,1]之间的值;
it=σ(wi·[ht-1,xt]+bi) (2)
将遗忘门跟记忆门作用的结果相加,得到下一个细胞状态ct,计算公式如式(4)所示:所述输出门的作用是决定网络最终的输出状态;输出门ot的计算公式如式(5),和式(1)、式(2)一样,使用sigmoid激活函数作用于ht-1,xt;对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht,如式(6)所示:ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
上述各式中系数wf,wc,wi,wo及bf,bi,bc,bo均为需要网络学习的权重参数,'·'代表矩阵乘法,等价于全连接操作;'*'代表元素点乘,等价于卷积操作。
4.根据权利要求3所述的任意方向自然场景文本识别方法,其特征在于:所述将LSTM中的状态转换层换为卷积层,计算公式如式(7)~(12),所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*';
ft=σ(wf*[ht-1,xt]+bf) (7)
it=σ(wi*[ht-1,xt]+bi) (8)
ot=σ(wo*[ht-1,xt]+bo) (11)
ht=ot*tanh(ct) (12)。
5.根据权利要求4所述的任意方向自然场景文本识别方法,其特征在于:步骤S3中所述字符注意机制,具体包括:将字符掩模模块加在每个ConvLSTM的后面,所述字符掩模模块按照式(13)设计:其中Fi、Fo分别代表输入和输出特征; 代表对字符掩模模块的输出特征p进行近似二值化,其中k代表二值化的程度; 分别代表元素相加和元素相乘;
字符掩模模块包括二层卷积和一个二分类的softmax函数,字符掩模模块的输出特征p中所有元素都取0-1之间的概率值;通过对输出特征p中的所有元素使用可微分近似二值化函数。
6.根据权利要求5所述的任意方向自然场景文本识别方法,其特征在于:步骤S3中还包括构建损失函数:网络的损失由两部分组成,如式(14)所示;其中Lo表示网络最终输出的损失,Lm表示字符掩模模块的损失,S代表网络的层级索引,λbalance为两个损失的平衡参数;
Lo的计算公式如式(15),假设网络最终输出的图像尺寸为H×W×C,H,W分别代表输出图像的的高和宽,C代表网络预测的类别数,c∈{0,1,...,C-1},yc代表真实的类别标签,pc代表网络对该像素点的类别预测概率,Wij是每个像素点的权重平衡因子,假设N=H×W,Npos表示前景的像素点个数,则Wij的计算公式如式(16):的计算公式如式(17),其中Hs,Ws分别表示对应层的输出图像的高和宽:
7.根据权利要求6所述的任意方向自然场景文本识别方法,其特征在于:步骤S4中具体包括:网络输出为H×W×C的概率图,将概率图转换获得文本信息;为此,首先手动设置一个阈值,将概率图转换为二值图;然后根据二值图得到外轮廓的最小外接矩形,计算矩形所在区域的概率图的各通道的概率值之和,取概率值最大的通道数的索引为最终的预测类别;
最后按照从左到右的顺序排列字符,得到最终的文本信息。