欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020104266762
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,包括以下步骤:

步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCAL VOC数据格式制作数据集;

步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理;

步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;

步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;

步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;

步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;

步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;

步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果。

2.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,步骤1获取适应于小数据集自然场景的数据集,具体包括:所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样,271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo,在200张图片中加入了不同程度的椒盐噪声,剩余100张图片是由原图做水平翻转得到。

3.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤2数据预处理步骤中,将图片尺寸resize到300×300,具体包括:

1.批量重命名:对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字;

2.图片标注:采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定;

3.根据PASCAL VOC数据格式制作数据集;

4.数据集划分:将800张图片划分成3个数据集,分别为训练集、验证集和测试集,划分比例为训练集60%、证集20%、测试集20%;

5.数据格式转换:通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。

4.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤3建立网络模型具体包括:该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络,本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组,在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1,池化层的池化窗口大小均为2×2,步长为2,经过池化层的下采样后,输出的长和宽均变为输入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1。

5.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤4把制作好的数据集输入到步骤3的网络中进行训练,具体包括:将归一化为300*300的图像输入网络模型中,网络输出为文本定位结果及文本分类的打分,训练基础网络模型。具体采用迭代次数为120000次,每次迭代网络读取的图片数目为

32,网络每进行500次迭代便进行一次测试,每次测试读取一张测试图片。测试集中共160张图片,网络训练中每隔10次迭代就输出一次当前训练结果。

6.根据权利要求5所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本,具体包括:

1.采用SSD算法中的Default box机制,设定不同规格的默认框来代替传统的批量滑动窗口,在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框,分别为1、2、3、5、7、10;

2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习,进而得到72维的特征矩阵,其中48维用于回归文本边界框,24维对检测目标进行分类,根据类别得分情况判断预测到的边界框内容是否为文本。

7.根据权利要求6所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述进行边框回归和分类的过程为:假设原始输入图片的尺寸大小为(wimg,himg),wimg、himg分别表示原始图片的宽和高。输入文本预测层的特征图的尺寸大小为(wmap,hmap),wmap、hmap分别表示特征图的宽和高,在特征图上坐标为(i,j)的位置上,设置默认文本框坐标db0=(x0,y0,w0,h0),其中,(i,j)表示特征图中每神经元的位置坐标,(x0,y0)代表特征图中每神经元上默认框的中心位置坐标,(w0,h0)表示该默认框的宽和高的尺寸信息,文本预测层预测默认框相对于真实文本框的偏移量,假设预测坐标偏移量为(Δx,Δy,Δw,Δh,c),其中c为预测置信度,用于目标分类,预测到的文本框坐标为db=(x,y,w,h),其计算公式如下。

x=x0+w0Δx,y=y0+h0Δy,w=w0exp(Δw),h=h0exp(Δh)采用公式(1)计算损失函数。

其中x表示和默认框相匹配的矩阵,对于第i个默认文本框和第j个真实文本框,当xij=

1时表示两者匹配,反之则不匹配,c为预测置信度,l为网络模型预测的位置坐标,g为文本的真实位置坐标,S为默认文本框和真实文本框匹配的数目,β系数在目标检测问题中一般设置为1,检测目标分类Lconf(x,c)采用的是损失函数为Softmax,边界框回归Lloc(x,l,g)采用的是 损失函数,网络训练学习的过程也就是边框回归损失和分类损失不断下降的过程。

8.根据权利要求7所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤6采用非极大值抑制算法消除多个候选框中的冗余候选框的具体实现步骤如下:

1.求得所有文本预测框的面积;

2.对所有文本预测框的分类得分进行排序,将得分最高的边框作为检测目标当前的文本检测框;

3.遍历剩余检测框,并计算其余文本预测框与得分最高边框的交并比(IoU)值,具体计算公式如下:其中,D代表预测的目标框,G代表真实目标框,D∩G代表预测的目标框和真实目标框的重叠部分,D∪G则代表两者的并集;

根据计算所得的交并比,删除IoU大于某阈值的检测框;

4.在未处理的文本框中继续选择一个得分最高的检测框,重复步骤(2)~(4)。