1.一种适用于复杂自然场景的文本检测方法,其特征在于,具体步骤如下:S1,构建训练数据集Tr及测试数据集Te;
S2,构建并训练基于共享核空洞卷积与注意力引导的FPN文本检测网络,所述共享核空洞卷积与注意力引导的FPN文本检测网络依次包括特征提取网络、候选框生成网络、分类与回归网络和Mask分支,其中特征提取网络为共享核空洞卷积与注意力引导的特征金字塔网络KDA‑FPN;
S3,使用训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络对待检测复杂自然场景图像进行文本检测。
2.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,
1)构建共享核空洞卷积与注意力引导的特征金字塔网络KDA‑FPN,以Resnet50为主干网络,Resnet50网络中的卷积块经共享核空洞卷积模块与注意力引导模块处理后,采用自底向上的前向传播方式,得到多尺度特征图;
2)候选框生成网络通过anchor锚框机制,经ROI Align操作对多尺度特征图上的文本区域进行识别,生成文本区域候选框;
3)通过分类与回归网络对文本候选框区域进行细分,得到细分文本区域候选框和背景区域并计算细分文本区域候选框的坐标置信度信息;
4)使用Mask分支中IOM后处理算法对分类与回归网络得到的细分文本区域候选框进行筛选,得到基于共享核空洞卷积与注意力引导的FPN文本检测网络;
5)将检测训练数据集Tr输入文本检测网络,使用多任务损失函数计算损失值对文本检测网络进行训练,得到训练完成的基于共享核空洞卷积与注意力引导的FPN文本检测网络。
3.根据权利要求2所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,共享核空洞卷积模块利用空洞卷积对Resnet50网络得到的卷积块F5感受野进行扩大,得到深层次细粒度特征;同时对卷积块F5进行上采样得到全局粗粒度信息描述特征,并将其与获取的深层次细粒度特征一起送入1*1卷积层进行融合,得到输出特征F。
4.根据权利要求3所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,注意力引导模块包括上下文注意模块和内容注意模块,上下文注意模块用于强化输出特征F相关区域特征的语义关系,得到区域间特征语义关系的注意力表征E;所述内容注意模块用于强化Resnet50网络的卷积块和KDM模块的输出特征F之间的空间位置信息,得到区域间特征空间位置信息的注意力表征D,将区域间特征语义关系的注意力表征E、区域间特征空间位置信息的注意力表征D和输出特征F融合得到特征表达F'。
5.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,分类与回归网络采用Fast RCNN模型,包括分类分支和回归分支,分类分支通过全连接层输出置信度大小将候选框生成网络得到的文本区域候选框分为细分文本区域候选框与背景区域两类;回归分支将全连接层作为边界框回归器,获取所述细分文本区域候选框的坐标位置信息。
6.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,Mask分支采用IOM最小边界框生成策略对分类与回归网络处理后的N个细分文本区域候选框进行筛选;所述IOM最小边界框生成策略将同一文本区域预测的细分文本区域候选框按面积大小进行排列,以面积最大的细分文本区域候选框与相邻细分文本区域候选框之间区域的交集面积占较小细分文本区域候选框面积的比值作为细分文本区域候选框筛选指标。
7.根据权利要求2所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S2中,所述多任务损失函数计包括RPN网络损失Lrpn,Fast RCNN模块损失Lrcnn和掩码损失Lmask。
8.根据权利要求1所述的一种适用于复杂自然场景的文本检测方法,其特征在于,步骤S1中,以单张逐行的方式对采集的复杂自然场景图像的文本区域进行标注,文本区域标注的形状为当前文本行的最小外接多边形,记录相应文本行的位置坐标,生成以图像名命名的txt文档,循环上述步骤构建数据集,基于标注文档所记录的坐标对应生成数据集练中每张图像的多张掩码图像,将图像及其对应的多张掩码图像进行增强、随机缩放、旋转后裁剪成固定尺寸,并执行归一化操作,将处理后的数据集按照2:1比例划分为检测训练数据集Tr和测试数据集Te。
9.一种适用于复杂自然场景的文本检测方法系统,其特征在于,包括处理器、存储器和存储在所述存储器中且可运行在所述处理器上的计算机程序,所述计算机程序运行时实现如权利要求1至8任一项权利要求所述的文本检测方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1至8任一项所述的文本检测方法。