欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023107954429
申请人: 武汉纺织大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的英文字符识别方法,其特征在于,包括以下步骤:

步骤1,获取待识别图像;

步骤2,通过字符视觉模块识别图像,先得到字符特征序列,再进一步得到粗预测序列;

步骤2中字符视觉模块由两层特征提取卷积层和两层GRU层组成,其中每一个特征提取卷积层由多个字符特征提取卷积模块组成,字符特征提取卷积模块中依次包含了1×3不对称分组卷积层,1×1卷积层,然后分3条支路,第一条支路是1×1卷积层,第二条支路是1×3不对称分组卷积层和3×1不对称分组卷积层,第三条支路是1×5不对称分组卷积层和5×1不对称分组卷积层,这3条支路相加后再经过3×3卷积层,层归一化层,激活层和1×1卷积层;

待识别图像先通过两层特征提取卷积层提取图像中的空间特征,然后使用两层GRU将学习到的空间特征转换成字符特征序列I1’,然后经过一个全连接层得到一个粗字符预测序列I1;

步骤3,使用字符识别模块处理中字符特征序列,得到最终字符预测序列;

步骤3中所述字符识别模块由M层Transformer层和一个全连接层构成,且字符识别模块的输入是字符视觉模块中输出的字符特征序列,将字符特征序列I1’输入字符识别模块中进行学习得到最终的字符预测序列If;

步骤4,根据最终字符预测序列中最大概率下标索引得到识别的字符序列;

步骤5,将识别的字符序列去冗余得到最终识别的字符串。

2.如权利要求1所述的一种基于深度学习的英文字符识别方法,其特征在于:所述的粗字符预测序列I1和最终的字符预测序列If在训练和具体应用中的配置如下;

在训练过程中使用两个字符预测序列构建损失函数来调整网络参数,而在具体应用中只使用最终的字符预测序列I来预测字符序列,其中在训练过程中使用的损失函数L如下:;

公式中的C代表分类数,yi代表第i个类别的标签集合,fi表示If对应预测序列中第i个元素的值,fi’表示I1预测序列中第i个元素的值,fj表示yi中第i个类别的第j个样本标签,|yi|表示样本总数,μ1和μ2是平衡因子。

3.如权利要求1所述的一种基于深度学习的英文字符识别方法,其特征在于:特征提取卷积层,GRU层和Transformer层的激活层中使用的激活函数都是MReLU激活函数,其具体公式如下:;

公式中σ和ε为超参数让函数值过渡更加平滑,x表示特征值。

4.如权利要求1所述的一种基于深度学习的英文字符识别方法,其特征在于:所述的特征提取卷积层中的第一个字符特征提取卷积模块中第一层1×3不对称分组卷积层的卷积步长设置为2,用于将特征图的宽缩小为原来的1/2,而不改变特征图的高;其他的字符特征提取卷积模块中的第二层的1×1卷积层进行升维操作,最后一层1×1卷积层会降维成输入字符特征提取卷积模块时的通道维度,但是特征提取卷积层中的第一个字符特征提取卷积模块中的最后一层1×1卷积层不进行降维。

5.如权利要求1所述的一种基于深度学习的英文字符识别方法,其特征在于:步骤5中,在去冗余之前,先采用空格策略机制,用于防止原本目标字符串中两个相同字符被预测成一个字符的情况,最终输出时再将空格字符去掉。

6.一种基于深度学习的英文字符识别系统,其特征在于,包括以下模块:

图像获取模块,用于获取待识别图像;

粗预测序列获取模块,用于通过字符视觉模块识别图像,先得到字符特征序列,再进一步得到粗预测序列;

字符视觉模块由两层特征提取卷积层和两层GRU层组成,其中每一个特征提取卷积层由多个字符特征提取卷积模块组成,字符特征提取卷积模块中依次包含了1×3不对称分组卷积层,1×1卷积层,然后分3条支路,第一条支路是1×1卷积层,第二条支路是1×3不对称分组卷积层和3×1不对称分组卷积层,第三条支路是1×5不对称分组卷积层和5×1不对称分组卷积层,这3条支路相加后再经过3×3卷积层,层归一化层,激活层和1×1卷积层;

待识别图像先通过两层特征提取卷积层提取图像中的空间特征,然后使用两层GRU将学习到的空间特征转换成字符特征序列I1’,然后经过一个全连接层得到一个粗字符预测序列I1;

最终字符预测序列,用于使用字符识别模块处理中字符特征序列,得到最终字符预测序列;

所述字符识别模块由M层Transformer层和一个全连接层构成,且字符识别模块的输入是字符视觉模块中输出的字符特征序列,将字符特征序列I1’输入字符识别模块中进行学习得到最终的字符预测序列If;

字符序列识别模块,用于根据最终字符预测序列中最大概率下标索引得到识别的字符序列;

去冗余模块,用于将识别的字符序列去冗余得到最终识别的字符串。