欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023107149745
申请人: 湖北工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于,包括以下步骤:

步骤1,根据公共文本数据集的标签生成文本区域的初始文本框,通过固定阈值精简文本框长边坐标数量,基于精简后的长边坐标点生成贝塞尔曲线,将两条贝塞尔曲线首尾连接构成新的文本框,并将文本框的标签由文本框边界坐标点转变为关键点坐标和关键点的宽度;

步骤1.1,选取公共文本图像数据集中存在长文本、扭曲文本的图像作为数据集,根据公共文本数据集的标签生成文本区域的初始文本框;

步骤1.2,采用固定阈值的方法对文本框长边的弯曲程度进行判定;

步骤1.3,根据文本框两条长边的弯曲程度,选择性的对文本框两条长边的坐标点进行精简;

步骤1.4,将精简后的两条长边上的坐标点作为贝塞尔曲线的控制点,生成两条相应的贝塞尔曲线,将两条贝塞尔曲线首尾连接得到该文本的真实边界框;

步骤1.5,将公共数据集的标签由文本框边界坐标点转变为关键点坐标和关键点的宽度;

步骤2,构建横幅文本检测网络模型;

横幅文本检测网络模型包括特征提取模块、特征融合模块、回归模块和文本框生成模块;特征提取模块,用于提取输入图像不同层次的特征信息,得到从低层到高层的包含语义信息的特征图像;特征融合模块,用于将不同层次的特征图像进行合并,得到融合的特征图像,用于后续对横幅文本检测;回归模块,包括形状回归和关键点回归,形状回归基于融合特征图得到文本与背景分离的文本形状二值图,关键点回归基于融合特征图得到关键点坐标和宽度;文本框生成模块,用于基于回归模块输出的当前图像中的关键点坐标和宽度信息,生成横幅图像文本框;

步骤3,利用步骤1得到的图像和标签中关键点数据集对步骤2构建的横幅文本检测网络模型进行训练;

将步骤1中得到的图像和标签中关键点数据集分为训练集和测试集,把训练集输入到横幅文本检测网络模型中进行迭代训练,更新横幅文本检测网络模型的参数,使损失函数最小化,记录测试集测试模型的准确率,保存最优的模型;训练过程分为形状检测训练和关键点检测训练,对应的损失函数 计算方式如下:(5)

式中, 为形状损失函数, 为关键点损失函数, 为损失函数的权重因子;

形状损失函数 的计算方式如下:

(6)

式中, 表示回归出的文本轮廓形状和关键点标签生成的文本框的交并比, 和分别表示回归出的文本轮廓形状和关键点标签生成的文本框的中心点坐标,回归出的文本轮廓形状的中心点坐标为文本轮廓形状的关键点中顺时针方向中位数的关键点坐标,关键点个数为双数时选择最中间两关键点连线的中心点坐标,关键点标签生成的文本框的中心点坐标为生成的文本框的关键点中顺时针方向中位数的关键点坐标,关键点个数为双数时选择最中间两关键点连线的中心点坐标, 表示两个中心点的欧氏距离, 表示能够同时包含回归出的文本轮廓形状和关键点标签生成的文本框的最小闭包区域的对角线长度,作为调节因子,用于平衡重叠面积和长宽比相似性之间的权重, 是衡量长宽比相似性的指标;

步骤4,运用训练好的横幅文本检测网络模型检测横幅图像中的文本。

2.如权利要求1所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤1.1中公共文本数据集的标签为多组按顺时针排列的坐标,每组坐标为框定文本的文本框边界点坐标,将每组坐标按顺时针相连,形成闭合多边形,得到该文本的初始文本框,设数据集图像边界点数量为 个,按顺序选取前 个作为上边界点,后 个作为下边界点,将上边界点的连线、下边界点的连线作为初始文本框的两条长边。

3.如权利要求1所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤1.2中通过固定阈值对数据集中文本框长边的首尾坐标连线距离和长边上其他坐标点到该连线的距离进行比较,判断文本框两条长边的弯曲程度,即:(1)

式中, 表示文本框长边的弯曲程度, 表示图像数据集中文本框长边上的坐标点到长边首尾坐标连线的最远距离与首尾坐标连线距离的比值,当该比值大于等于0,且小于时,判定该长边为直线,当该比值大于等于 ,且小于 时,判定该长边部分弯曲,当该比值大于等于 时,判定该长边完全弯曲, 、 为设定的阈值。

4.如权利要求3所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤1.3中设长边上的坐标点到首尾坐标点连线的距离为 ,首尾坐标点分别为 、,具体精简过程如下:当判定长边为直线时,仅保留长边首尾坐标点;当判定长边为部分弯曲时,保留距离首尾坐标连线最远的坐标点和首尾坐标点;当判定长边为完全弯曲时,设定阈值 为首尾坐标连线长度的0.1倍,当 大于 时,保留对应的坐标点,舍弃其他坐标点;设 最大的坐标点为 ,用 将曲线分为 , 两部分,重复上述操作,直到无坐标点到连线距离大于 为止。

5.如权利要求1所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤1.4中将精简后长边上的坐标点作为贝塞尔曲线的控制点,贝塞尔曲线使用以伯恩斯坦多项式为基的参数曲线表示,具体定义如下式所示:(2)

(3)

式中, 表示贝塞尔曲线上点的坐标集合, 表示贝塞尔曲线阶数, 表示第 个控制点的坐标, 表示第 个控制点的伯恩斯坦多项式, 表示二项式系数, 表示时间,当对应贝塞尔曲线上所有点的坐标,由于 或1时, 的值为0,因此当时,选取长边上的第一个坐标点作为0时刻贝塞尔曲线的位置坐标,当 时,选取长边上的最后一个坐标点作为1时刻贝塞尔曲线的位置坐标;

通过式(2)生成两条贝塞尔曲线,将两条贝塞尔曲线首尾连接构成的闭合多边形作为该文本实例的真实文本框。

6.如权利要求3所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤1.5中将两条长边上的边界点转化为一组关键点来表示文本框,在转化为关键点之前,采取向上兼容的方式保证文本框上下两条长边的边界点数量一致,具体步骤如下:当上下两条边分别为直线和部分弯曲时,提取直线边的中点作为其中一个边界点,使得上下两边边界点为三个;当上下两条边分别为直线和完全弯曲时,按完全弯曲边坐标点数量对直线边进行等分,提取等分的坐标点,使得上下两边边界点数量一致;当上下两条边分别为部分弯曲和完全弯曲时,依照完全弯曲边坐标点数量减去部分弯曲边坐标点数量对部分弯曲边的两条曲线等分,提取等分的坐标点,使得上下两边边界点数量一致;经过上述操作使上下边界点数量统一后,再对边界点进行转化,将上下边的坐标从首到尾一一对应,取对应坐标点的中点坐标作为关键点坐标,对应坐标点距离的二分之一作为关键点的宽度,至此公共图像文本数据集中的标签由边界框的坐标点转变为一组关键点坐标和对应的宽度。

7.如权利要求1所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤2中特征提取模块主干网络采用ResNet‑50模型,将图像输入到ResNet‑50模型后,通过通道增加和下采样处理依次得到四张特征图像 、 、 、 ,对主干网络中得到的四张不同尺度的特征图像的通道数量进行统一处理得到 、 、  、 ,然后从最低尺度的特征图 开始进行上采样处理,并与FPN结构输入端同尺度的特征图 进行相加操作,得到融合后的较低尺度的特征图像 ,对 进行上采样后与 相加,得到融合后的低尺度的特征图像 ,同样对 进行上采样后与 相加,得到融合后的特征图像 ,最后将融合后的特征图像 、 、 、 作为FPN的输出;

特征融合模块是将不同尺度的融合特征图像进行合并,得到合并后的融合特征图像,具体计算过程如下:

(4)

式中, 表示通道连接, 和 分别为2倍、4倍和8倍上采样, 、

、 、 为融合后的特征图像;

将融合特征图像 进行上采样处理,使得 与原始图像大小相同。

8.如权利要求7所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤2中回归模块包括形状回归和关键点回归两部分,形状回归通过激活函数的卷积层将融合特征图 转化为文本形状特征图,通过设定阈值为 对该特征图进行二值化,高于阈值 的区域作为文本区域,低于阈值 的区域为背景区域,得到文本与背景分离的文本形状二值图;将该二值图中的文本轮廓形状与图像关键点标签生成的文本框形状做比较,通过比较两者交并比IOU对二值图中的文本轮廓形状与图像关键点标签生成的文本框形状进行匹配;关键点回归的输入是融合特征图 ,输出是关键点坐标和宽度,包括两个分支,其中一个分支的输出是 张关键点热图, 为被检测图像文本实例中关键点最多的关键点数,选取关键点热图中得分最高的 个高亮坐标点为这张关键点热图中的关键点坐标,其也是这张图像每个文本实例在这一类关键点对应的关键点坐标, 为被检测图像的文本实例个数,文本实例关键点数量不足的,高亮坐标个数相应减少,另一个分支检测的输出个宽度信息,宽度信息与关键点一一对应,文本实例关键点数量不足的,剩余宽度信息取0;文本框生成模块将回归模块输出的关键点坐标和宽度信息作为文本实例信息,并用该信息来生成文本框;关键点宽度为关键点到对应长边坐标点的距离,以两个相邻关键点的连线作为关键点与长边坐标点连线的法线,关键点垂直该法线向上下延伸该关键点对应宽度距离,终点坐标为长边坐标点;按上述操作对每个坐标点进行处理,得到两组与关键点数量相同的长边坐标点,将长边坐标点作为贝塞尔曲线的控制点生成得到两条贝塞尔曲线,将两条贝塞尔曲线首尾相连,得到完全闭合的曲线框,该曲线框即为该文本实例的文本框;最后将框定文本的图像输出,实现横幅图像的文本检测。

9.如权利要求1所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法,其特征在于:步骤3中关键点损失函数 包括关键点坐标和宽度两个部分,具体计算公式如下:(7)

(8)

(9)

式中, 为关键点坐标损失函数, 为关键点宽度损失函数, 为权重因子,是图像中文本实例的数量, 表示回归关键点热图的通道数量, 和 分别表示回归关键点热图的高和宽, 是回归模块回归的关键点热图中关键点 的得分,表示带有关键点标签的图像经过高斯函数计算得到的真实关键点热图的坐标点得分,和 是控制每个关键点贡献的超参数,通过 来减少对关键点坐标周围点的惩罚, 表示返回括号内数字的绝对值;

在关键点坐标回归时,不考虑非文本区域坐标点,以减少负样本数量;使用训练集数据对横幅文本检测网络模型进行训练后,将测试集放入模型中,比较文本检测的准确率和检测速度,提取出最优的检测模型。

10.一种基于贝塞尔曲线和关键点的横幅文本检测系统,其特征在于,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1‑9任一项所述的一种基于贝塞尔曲线和关键点的横幅文本检测方法。