1.一种社交网络中的自然场景图像文本检测方法,其特征在于,包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
训练多粒度特征融合模型的过程包括:S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为
0,清晰可见具有语义的文本标注框信息标为1。
3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度
1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
S34:将三个多粒度特征向量进行融合得到最终的预测特征。
4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
hj=concat(Unpool(fj‑1),fj)其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;采用通道注意力机制对残差通道注意力网络进行改进的公式为:i i i i
CA=σ(Wh+b)
· i j
其中,i,j∈{1,2,3},h 代表进行粒度融合后的特征向量,W ,W 代表可学习的参数,σi j
(·)代表sigmoid激活函数,CA 和RCA分别代表生成的通道注意力权重值和残差通道注意力权重值。
5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,得到最终的预测特征的表达式为:
1 2 3
Z=σ(Pool(concat(RCA ,RCA ,RCA)))其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
6.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls;
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg;
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。
7.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,分数图损失Ls的表达式为:
其中,ytrue和ypred分别表示分数图的真实值和预测值。
8.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,得到几何图损失Lg的过程包括:S531:采用IOU损失函数对矩形框进行优化,优化后的表达式为:*
其中,LR表示回归矩形框损失, 表示预测的几何形状,R表示真实的几何形状,∩表示相交,∪表示相并;
S532:计算相交矩形 的宽度和高度以及联合区域;根据联合区域以及相交矩形区域计算旋转角度损失;旋转角度损失的表达式为:*
其中,表示对旋转角度的预测,θ表示实际值;
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:Lg=LR+λθLθ
其中,λθ表示几何图损失的权重参数。
9.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,模型的损失函数为:
L=Ls+λgLg
其中,λg表示权重。
10.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在检测图像上生成可视化文本框的过程包括:S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃;
S62:对生成的几何体依次进行IOU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并;
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。