知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种任意方向自然场景文本识别方法

￥17000

专利号： 2020100179360

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-11-07

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种任意方向自然场景文本识别方法，其特征在于：包括以下步骤：

S1：首先使用高分辨分割网络HRNet作为基础框架提取文本的空间信息；

S2：然后使用卷积长短时记忆ConvLSTM模型提取文本的时空序列信息；步骤S2中所述的ConvLSTM，是将长短时记忆LSTM中的状态转换层换为卷积层，所述LSTM的原理如下：LSTM有三个门，分别为遗忘门ft、记忆门it和输出门ot，LSTM中的门是一种让信息选择性通过的方法，由sigmoid激活函数跟元素点乘操作组成，sigmoid函数输出[0,1]之间的数，代表信息保留的比率，其中数值1代表信息全部保留，而0表示无信息保留；

所述LSTM中遗忘门、记忆门和输出门的原理如下：

所述遗忘门的作用是选择性的舍弃上一个单元状态ct‑1的信息，即使用sigmoid激活函数作用于上一个隐藏层状态ht‑1，输入状态xt，其计算公式如式(1)所示：ft＝σ(wf·[ht‑1,xt]+bf) (1)所述记忆门的作用是选择性的保留临时状态的信息，其计算公式如式(2)，与式(1)一样，仍使用sigmoid激活函数作用于ht‑1，xt，其中如式(3)所示，其使用激活函数tanh将输入ht‑1，xt转换成[‑1,1]之间的值；

it＝σ(wi·[ht‑1,xt]+bi) (2)将遗忘门跟记忆门作用的结果相加，得到下一个细胞状态ct，计算公式如式(4)所示：所述输出门的作用是决定网络最终的输出状态；输出门ot的计算公式如式(5)，和式(1)、式(2)一样，使用sigmoid激活函数作用于ht‑1，xt；对由式(4)得到的ct使用tanh进行归一化处理后再与输出门结果ot做元素点乘操作以得到网络最终的输出状态ht，如式(6)所示：ot＝σ(wo·[ht‑1,xt]+bo) (5)ht＝ot*tanh(ct) (6)上述各式中系数wf，wc，wi，wo及bf，bi，bc，bo均为需要网络学习的权重参数，'·'代表矩阵乘法，等价于全连接操作；'*'代表元素点乘，等价于卷积操作；

所述将LSTM中的状态转换层换为卷积层，计算公式如式(7)～(12)，所述ConvLSTM与LSTM的区别在于所有的全连接'·'操作换成卷积操作'*'；

ft＝σ(wf*[ht‑1,xt]+bf) (7)it＝σ(wi*[ht‑1,xt]+bi) (8)ot＝σ(wo*[ht‑1,xt]+bo) (11)ht＝ot*tanh(ct) (12)S3：通过设计字符注意机制使得模型的注意力在字符上，并使用可微分二值化函数进一步加大网络对前景的注意力，而削弱对背景区域的关注；步骤S3中所述字符注意机制，具体包括：将字符掩模模块加在每个ConvLSTM的后面，所述字符掩模模块按照式(13)设计：其中Fi、Fo分别代表输入和输出特征；代表对字符掩模模块的输出特征

p进行近似二值化，其中k代表二值化的程度；分别代表元素相加和元素相乘；

字符掩模模块包括二层卷积和一个二分类的softmax函数，字符掩模模块的输出特征p中所有元素都取0‑1之间的概率值；对输出特征p中的所有元素使用可微分近似二值化函数；

S4：网络对每个像素点进行37分类，将分类结果按照从左到右的顺序转换成文本；所述

37分类为：网络分类的类别数为37，包括10个阿拉伯数字，26的英文字母，一个背景。

2.根据权利要求1所述的任意方向自然场景文本识别方法，其特征在于：步骤S3中还包括构建损失函数：网络的损失由两部分组成，如式(14)所示；其中Lo表示网络最终输出的损失，Lm表示字符掩模模块的损失，S代表网络的层级索引，λbalance为两个损失的平衡参数；

Lo的计算公式如式(15)，假设网络最终输出的图像尺寸为H×W×C，H，W分别代表输出图像的的高和宽，C代表网络预测的类别数，c∈{0,1,...,C‑1}，yc代表真实的类别标签，pc代表网络对该像素点的类别预测概率，Wij是每个像素点的权重平衡因子，假设N＝H×W,Npos表示前景的像素点个数，则Wij的计算公式如式(16)：的计算公式如式(17)，其中Hs，Ws分别表示对应层的输出图像的高和宽：

3.根据权利要求2所述的任意方向自然场景文本识别方法，其特征在于：步骤S4中具体包括：网络输出为H×W×C的概率图，将概率图转换获得文本信息；为此，首先手动设置一个阈值，将概率图转换为二值图；然后根据二值图得到外轮廓的最小外接矩形，计算矩形所在区域的概率图的各通道的概率值之和，取概率值最大的通道数的索引为最终的预测类别；

最后按照从左到右的顺序排列字符，得到最终的文本信息。