知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于场景分类和超分辨率的场景文字识别方法

￥32200

专利号： 2019101077501

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述方法包括以下步骤：步骤1：结合分类网络和ssd的共同点，得到c-ssd；融合超分辨率和卷积循环神经网络，基于crnn网络增加上采样层，得到sr-rcnn网络；

步骤2：以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数；

步骤3：以数据增强的方法扩张数据集；用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练，得到相应的c-ssd模型和sr-crnn模型；

步骤4：用评估数据集对训练得到的模型进行评估，若效果未达标，则增加数据集，返回步骤3重新训练评估，否则进行下一步；

步骤5：将带手势的图片输入训练好的c-ssd模型中进行处理，返回手势的坐标位置与场景信息；

步骤6：以文字特征设计检错器，对步骤5返回的场景信息进行检查，结合c-ssd网络输出的置信度和检错器的检查结果，返回最终的场景信息；

步骤7：由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别，或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步；

步骤8：将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较，得到需要的文本区域，将所述文本区域输入sr-rcnn模型，得到最后的识别结果。

2.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤1包括以下步骤：步骤1.1：在ssd的骨干网络末尾层设置全连接层得到c-ssd网络，以ssd实现对场景中的物体进行目标检测，以全连接层实现对场景的直接分类；

步骤1.2：将全连接层的输出和ssd的所有分支卷积层输出以concat层联结，整合得到一个输出，将所述输出输入到改进过的检测层中，得到最终的场景信息和手势位置；

步骤1.3：基于crnn网络，在crnn网络前端增加卷积层和上采样层，构建新的网络sr-crnn。

3.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤3包括以下步骤：步骤3.1：网络权重初始化；

步骤3.2：对数据集进行裁剪并翻转后以PCA jittering进行数据增强；

步骤3.3：将经数据增强的数据集输入到深度学习框架构建的网络，输出得到网络的结果；

步骤3.4：将网络的结果和标签作为损失函数模型的两个输入，计算得到损失；

步骤3.5：若损失值大于等于设定的阈值K，则根据损失反向调整网络权重，返回步骤

3.3，否则，以当前模型为最终模型。

4.根据权利要求3所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤3 .4中，c-ssd网络以CTC Loss函数作为损失函数模型，其中p(z|x)代表给定输入x、输出序列z的概

率，S为训练集。

5.根据权利要求3所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤3.4中，sr-rcnn的损失函数模型为其中x为网络输出，c为置

信度，l为预设的框，g为真实的框，r为真实的场景类别，α、β和γ分别为权重比例，α＞0，β+γ＝1。

6.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤4中，以网络预测值与实际值的比较对网络进行评估，得到评估值其中，TP表示预测成功的数量，FP表示预测错误的数量，N表示图片的总数量，T表示所有类别，计算当IOU>0.5时，预测成功，TP加1，否则预测失败，FP加1，其中，area1和area2分别为网络预测值与实际值。

7.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤5包括以下步骤：步骤5.1：带手势的图片输入c-ssd模型中，经过一次卷积，得到并复制特征图f1；将其中一份特征图f1继续进行卷积，另一份作为外接特征层的输入；

步骤5.2：以f1卷积得到的特征图复制两份，第一份输入全连接层进行场景分类，第二份继续进行卷积得到特征图f2，第三份f1保留作为外接特征层的输入；

步骤5.3：特征图f2复制一份，第一份f2保留，第二份f2继续卷积；

重复操作，得到特征图f3、f4、f5、f6；

步骤5.4：将特征图的维度分为分数维度和坐标维度，坐标维度储存的为手势的概率坐标，分数维度为对应该坐标的可信程度；以分数维度对坐标维度进行排序，得到手势的最可信坐标，作为手势的坐标位置。

8.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤6中，检错器提取文字特征，通过文字特征计算场景中文字的密集程度其中，n表示文字特征所占的像素点个数，N表示整张图像的像素点数量；结合c-ssd网络输出的场景类别的分数维度得到置信度，若c-ssd网络的场景类别返回的置信度C<

0.8，检错器返回的结果可信，判断若Ptext>0.3，当前场景为密集文字场景，反之则为普通文字场景，若c-ssd网络的场景类别返回的置信度C≥0.8，则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。

9.根据权利要求8所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤7中，当步骤6返回的图片的当前场景为文字密集场景，则以ocr模型对图片进行直接文字识别，否则，将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。

10.根据权利要求9所述的一种基于场景分类和超分辨率的场景文字识别方法，其特征在于：所述步骤8中，以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU，根据IOU的值进行排序，IOU最大的区域为所需的文本区域，将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。