1.一种基于多维度融合的密集场景文本检测方法,其特征在于,具体步骤如下:
S1收集密集场景文本图像,标注所述文本图像的文本区域,构建密集文本检测训练数据集Tr和测试数据集Te,并对训练数据集Tr中的图像进行预处理;
S2以ResNet50组成的FPN金字塔结构为基本骨架构造密集场景文本检测网络,所述密集场景文本检测网络包括文本增强模块和通道融合策略,所述文本增强模块用于生成全局文本映射,所述通道融合策略用于自底向上建立高低维度特征信息链;
S3通过损失函数计算损失值,采用随机梯度下降法训练密集场景文本检测网络,获得训练好的密集场景文本检测模型;
S4将待检测密集场景文本图像输入密集文本检测模型中得到多维度特征图F,将多维度特征图F重构至输入图像中,实现密集文本的检测;
步骤S2中,所述文本增强模块衔接在ResNet50最大池化层后,由一个反卷积层、一个3×3卷积层、一个1×1的卷积层以及一个Softmax2d函数构成;
步骤S2中,所述文本增强模块通过Softmax2d函数生成全局文本映射,所述全局文本映射以逐点相乘的方式编码生成增强文本特征T,所述全局文本映射用于描述图像中像素点在文本区域的概率;
步骤S2中,所述通道融合策略自底向上依次对不同维度的信息进行信息遗忘、信息更新和信息输出操作,获取高低维度特征的链式信息表达,将各维度的输出特征进行维度拼接得到多维度特征图F步骤S2中,所述通道融合策略包括三组,每组均由带有不同激活函数的卷积块组成,具体包括Sigmoid的3×3卷积、Tanh的3×3卷积、Relu的1×1卷积。
2.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S2中,所述FPN包括上采样阶段和下采样阶段,其中,下采样阶段对增强文本特征T进行密集文本特征提取,生成一组不同分辨率的特征图{R1,R2,R3,R4},该组特征图尺寸依次减半,维度依次加倍;上采样阶段对{R4,R3,R2,R1}进行初步融合,得到初步融合特征{P1,P2,P3,P4}。
3.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S1中,利用文本标注软件以单张逐行的方式对所述文本图像中的文本区域进行标注,得到密集文本检测训练数据集Tr和测试数据集Te,所述标注的形状为文本区域的最小外界多边形。
4.根据权利要求1所述的一种基于多维度融合的密集场景文本检测方法,其特征在于,步骤S1中,所述检测训练数据集Tr的预处理具体步骤为:记录检测训练数据集Tr中单张图片的文本区域对应的文字坐标,根据文字坐标生成掩码图像,对掩码图像进行旋转、缩放、裁剪和归一化得到预处理后的检测训练数据集,所述缩放采用多边形裁剪算法。
5.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1‑4中任一项所述的一种基于多维度融合的密集场景文本检测方法。
6.一种计算机可读存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行如权利要求1‑4中任一项所述的一种基于多维度融合的密集场景文本检测方法。