1.一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述方法包括以下步骤:步骤1:结合分类网络和ssd的共同点,得到c-ssd;融合超分辨率和卷积循环神经网络,基于crnn网络增加上采样层,得到sr-rcnn网络;
步骤2:以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数;
步骤3:以数据增强的方法扩张数据集;用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型;
步骤4:用评估数据集对训练得到的模型进行评估,若效果未达标,则增加数据集,返回步骤3重新训练评估,否则进行下一步;
步骤5:将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息;
步骤6:以文字特征设计检错器,对步骤5返回的场景信息进行检查,结合c-ssd网络输出的置信度和检错器的检查结果,返回最终的场景信息;
步骤7:由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别,或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步;
步骤8:将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较,得到需要的文本区域,将所述文本区域输入sr-rcnn模型,得到最后的识别结果。
2.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤1包括以下步骤:步骤1.1:在ssd的骨干网络末尾层设置全连接层得到c-ssd网络,以ssd实现对场景中的物体进行目标检测,以全连接层实现对场景的直接分类;
步骤1.2:将全连接层的输出和ssd的所有分支卷积层输出以concat层联结,整合得到一个输出,将所述输出输入到改进过的检测层中,得到最终的场景信息和手势位置;
步骤1.3:基于crnn网络,在crnn网络前端增加卷积层和上采样层,构建新的网络sr-crnn。
3.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:网络权重初始化;
步骤3.2:对数据集进行裁剪并翻转后以PCA jittering进行数据增强;
步骤3.3:将经数据增强的数据集输入到深度学习框架构建的网络,输出得到网络的结果;
步骤3.4:将网络的结果和标签作为损失函数模型的两个输入,计算得到损失;
步骤3.5:若损失值大于等于设定的阈值K,则根据损失反向调整网络权重,返回步骤
3.3,否则,以当前模型为最终模型。
4.根据权利要求3所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3 .4中,c-ssd网络以CTC Loss函数作为损失函数模型,其中p(z|x)代表给定输入x、输出序列z的概
率,S为训练集。
5.根据权利要求3所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3.4中,sr-rcnn的损失函数模型为其中x为网络输出,c为置
信度,l为预设的框,g为真实的框,r为真实的场景类别,α、β和γ分别为权重比例,α>0,β+γ=1。
6.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤4中,以网络预测值与实际值的比较对网络进行评估,得到评估值其中,TP表示预测成功的数量,FP表示预测错误的数量,N表示图片的总数量,T表示所有类别,计算 当IOU>0.5时,预测成功,TP加1,否则预测失败,FP加1,其中,area1和area2分别为网络预测值与实际值。
7.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤5包括以下步骤:步骤5.1:带手势的图片输入c-ssd模型中,经过一次卷积,得到并复制特征图f1;将其中一份特征图f1继续进行卷积,另一份作为外接特征层的输入;
步骤5.2:以f1卷积得到的特征图复制两份,第一份输入全连接层进行场景分类,第二份继续进行卷积得到特征图f2,第三份f1保留作为外接特征层的输入;
步骤5.3:特征图f2复制一份,第一份f2保留,第二份f2继续卷积;
重复操作,得到特征图f3、f4、f5、f6;
步骤5.4:将特征图的维度分为分数维度和坐标维度,坐标维度储存的为手势的概率坐标,分数维度为对应该坐标的可信程度;以分数维度对坐标维度进行排序,得到手势的最可信坐标,作为手势的坐标位置。
8.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤6中,检错器提取文字特征,通过文字特征计算场景中文字的密集程度其中,n表示文字特征所占的像素点个数,N表示整张图像的像素点数量;结合c-ssd网络输出的场景类别的分数维度得到置信度,若c-ssd网络的场景类别返回的置信度C<
0.8,检错器返回的结果可信,判断若Ptext>0.3,当前场景为密集文字场景,反之则为普通文字场景,若c-ssd网络的场景类别返回的置信度C≥0.8,则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。
9.根据权利要求8所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤7中,当步骤6返回的图片的当前场景为文字密集场景,则以ocr模型对图片进行直接文字识别,否则,将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。
10.根据权利要求9所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤8中,以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU, 根据IOU的值进行排序,IOU最大的区域为所需的文本区域,将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。