欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100179360
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-07
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种任意方向自然场景文本识别方法,其特征在于:包括以下步骤:

S1:首先使用高分辨分割网络HRNet作为基础框架提取文本的空间信息;

S2:然后使用卷积长短时记忆ConvLSTM模型提取文本的时空序列信息;

S3:通过设计字符注意机制使得模型的注意力在字符上,并使用可微分二值化函数进一步加大网络对前景的注意力,而削弱对背景区域的关注;

S4:网络对每个像素点进行37分类,将分类结果按照从左到右的顺序转换成文本。

2.根据权利要求1所述的任意方向自然场景文本识别方法,其特征在于:步骤S2中所述的ConvLSTM,是将长短时记忆LSTM中的状态转换层换为卷积层,所述LSTM的原理如下:LSTM有三个门,分别为遗忘门ft、记忆门it和输出门ot,LSTM中的门是一种让信息选择性通过的方法,由sigmoid激活函数跟元素点乘操作组成,sigmoid函数输出[0,1]之间的数,代表信息保留的比率,其中数值1代表信息全部保留,而0表示无信息保留。

3.根据权利要求2所述的任意方向自然场景文本识别方法,其特征在于:所述LSTM中遗忘门、记忆门和输出门的原理如下:所述遗忘门的作用是选择性的舍弃上一个单元状态ct-1的信息,即使用sigmoid激活函数作用于上一个隐藏层状态ht-1,输入状态xt,其计算公式如式(1)所示:ft=σ(wf·[ht-1,xt]+bf)  (1)

所述记忆门的作用是选择性的保留临时状态 的信息,其计算公式如式(2),与式(1)一样,仍使用sigmoid激活函数作用于ht-1,xt,其中 如式(3)所示,其使用激活函数tanh将输入ht-1,xt转换成[-1,1]之间的值;

it=σ(wi·[ht-1,xt]+bi)  (2)

将遗忘门跟记忆门作用的结果相加,得到下一个细胞状态ct,计算公式如式(4)所示:所述输出门的作用是决定网络最终的输出状态;输出门ot的计算公式如式(5),和式(1)、式(2)一样,使用sigmoid激活函数作用于ht-1,xt;对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht,如式(6)所示:ot=σ(wo·[ht-1,xt]+bo)  (5)

ht=ot*tanh(ct)  (6)

上述各式中系数wf,wc,wi,wo及bf,bi,bc,bo均为需要网络学习的权重参数,'·'代表矩阵乘法,等价于全连接操作;'*'代表元素点乘,等价于卷积操作。

4.根据权利要求3所述的任意方向自然场景文本识别方法,其特征在于:所述将LSTM中的状态转换层换为卷积层,计算公式如式(7)~(12),所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*';

ft=σ(wf*[ht-1,xt]+bf)  (7)

it=σ(wi*[ht-1,xt]+bi)  (8)

ot=σ(wo*[ht-1,xt]+bo)  (11)

ht=ot*tanh(ct)  (12)。

5.根据权利要求4所述的任意方向自然场景文本识别方法,其特征在于:步骤S3中所述字符注意机制,具体包括:将字符掩模模块加在每个ConvLSTM的后面,所述字符掩模模块按照式(13)设计:其中Fi、Fo分别代表输入和输出特征; 代表对字符掩模模块的输出特征p进行近似二值化,其中k代表二值化的程度; 分别代表元素相加和元素相乘;

字符掩模模块包括二层卷积和一个二分类的softmax函数,字符掩模模块的输出特征p中所有元素都取0-1之间的概率值;通过对输出特征p中的所有元素使用可微分近似二值化函数。

6.根据权利要求5所述的任意方向自然场景文本识别方法,其特征在于:步骤S3中还包括构建损失函数:网络的损失由两部分组成,如式(14)所示;其中Lo表示网络最终输出的损失,Lm表示字符掩模模块的损失,S代表网络的层级索引,λbalance为两个损失的平衡参数;

Lo的计算公式如式(15),假设网络最终输出的图像尺寸为H×W×C,H,W分别代表输出图像的的高和宽,C代表网络预测的类别数,c∈{0,1,...,C-1},yc代表真实的类别标签,pc代表网络对该像素点的类别预测概率,Wij是每个像素点的权重平衡因子,假设N=H×W,Npos表示前景的像素点个数,则Wij的计算公式如式(16):的计算公式如式(17),其中Hs,Ws分别表示对应层的输出图像的高和宽:

7.根据权利要求6所述的任意方向自然场景文本识别方法,其特征在于:步骤S4中具体包括:网络输出为H×W×C的概率图,将概率图转换获得文本信息;为此,首先手动设置一个阈值,将概率图转换为二值图;然后根据二值图得到外轮廓的最小外接矩形,计算矩形所在区域的概率图的各通道的概率值之和,取概率值最大的通道数的索引为最终的预测类别;

最后按照从左到右的顺序排列字符,得到最终的文本信息。