欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108551895
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:步骤1:数据标注与数据增强;

步骤2:训练FTES-Net语义分割网络;

步骤3:获取文字轮廓。

2.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤1包括:

步骤1.1 建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置,轮廓框内部区域标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;

步骤1.2 图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换,分别获得模型训练数据集和模型目标数据集;

所述步骤2包括:

步骤2.1 模型参数配置:在步骤1.2中获得模型训练数据集的总量为S;模型过程设置N个epochs,即模型迭代训练N次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次,每次1幅图像参与训练,模型训练使用Adam损失函数作为损失优化函数;

步骤2.2 训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加,以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数;

步骤2.3 迭代训练:重复步骤2.2,当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息;

所述步骤3包括:

步骤3.1 获取语义分割图:加载步骤2.3保存的FTES-Net模型和模型参数信息,将需要检测的文字图像输入到FTES-Net模型,生成对应的语义分割图;

步骤3.2 噪声去除:提取步骤3.1语义分割图中的文字语义区域,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图;

步骤3.3 提取文字轮廓框:对步骤3.2中的文字语义区域分割图进行图像扩张操作,然后通过轮廓检测生成文字轮廓曲线框,对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。

3.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤2中步骤2.2多分类交叉熵损失函数为:其中,lc为交叉熵损失,N为语义区域类别数量,C为像素总数,Xi为像素类别预测概率值。所述Dice损失函数为:其中,ltext,ledge,lbackground分别为文字、边缘和背景语义区域的损失,R为真实文字区域,为FTES-Net预测输出的文字区域。yt和yp真实概率和预测概率。

4.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:融合多分类交叉熵损失函数和Dice损失函数后为:l=lc+λltext+μledge+vlbackground

λ,μ,ν为权重系数,分别为2,5,1。以最小化损失函数l为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。

5.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10%,所述随机缩放后图像的长和宽为

16的整倍数。