欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021102974380
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,该方法首先获取视频数据集合以及像素级标注,然后进行以下操作:步骤(1)对视频数据进行帧采样,使用残差卷积网络作为特征提取网络,输入视频帧,输出对应的残差特征集合;

步骤(2)构建层次级联网络,输入视频帧对应的残差特征集合,输出对应的层次级联特征集合;

步骤(3)构建基于贝叶斯模型的目标记忆模块,输入视频帧对应的层次级联特征集合,输出其对应的预测粗糙掩膜;

步骤(4)构建掩膜恢复网络,输入视频帧对应的层次级联特征集合和预测粗糙掩膜,输出其对应的预测精细掩膜;

步骤(5)对由特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络构成的目标分割网络,使用交叉熵损失函数进行优化,获得训练好的目标分割网络;

步骤(6)将新视频序列及首帧掩膜输入已训练好的目标分割网络中,输出视频目标分割的结果。

2.如权利要求1所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(1)具体是:

(1‑1)对输入视频进行帧采样,结合给出的各帧像素级标记,得到视频帧与掩膜的集合为{(Ft,Mt)|t=1,2,...,T};其中,T表示视频的总时长,Ft表示t时刻的视频帧,w×h×2

表示实数集合,w表示宽、h表示长、通道数为3;Mt表示t时刻视频帧的掩膜,M∈{0,1} ,其两个通道分别代表背景和前景目标;

(1‑2)使用残差卷积网络作为特征提取网络,并去除其最后的全局池化层和全连接层,输入视频帧F,输出残差卷积网络第二至五层的残差特征由此构成残差特征集合 其中,上标数n=2,3,4,5表示第n层,256、512、1024和2048表示该层残差特征的通道数;

(1‑3)将视频帧{Ft|t=1,2,...,T}依次输入(1‑2)中的特征提取网络,输出各视频帧的残差特征集合

3.如权利要求2所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(2)具体是:

(2‑1)层次级联网络由注意力网络、低层次通道嵌入网络、高层次通道嵌入网络和一个融合卷积层构成;输入连续三层n‑1,n,n+1的残差特征k k k

其中w,h ,c分别为第k层残差特征的宽、长、通道数,k=n‑1,n,n+1,n=

2,3,4,5,输出第n层的层次级联特征 c1为输出的通道数;

n n‑1 n+1

(2‑2)将特征提取网络得到的第二至五层残差特征R 与其相邻层残差特征R 和R 一2

起输入(2‑1)中的层次级联网络,n=2,3,4,5,对于第二层残差特征R ,不使用低层次通道5

嵌入网络,对于第五层残差特征R不使用高层次通道嵌入网络,输出第二至五层对应的层次级联特征 由此构成层次级联特征集合

(2‑3)将各视频帧的残差特征集合 依次按照步骤(2‑1)和(2‑2)操作,输出各视频帧的层次级联特征集合

4.如权利要求3所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(3)具体是:

(3‑1)构建的目标记忆模块通过计算并保存视频中背景和前景的先验概率及目标特征表示来实现记忆功能,目标记忆模块使用视频首帧及其掩膜进行初始化,并在处理视频后续各帧的过程中不断进行更新,并通过贝叶斯公式计算得到视频帧的预测粗糙掩膜;

(3‑2)目标记忆模块初始化:首先输入各视频帧的层次级联特征集合 和首帧真实掩膜M1,输出目标记忆模块的初始化背景先验概率 目标特征表示 和初始化前景先验概率目标特征表示 其中上标bg和fg分别表示背景和前景,初始化过程具体是:对输入的首个视频帧真实掩膜M1进行下采样得到真实粗糙掩膜 被分为背bg

景的像素点集合记为 集合中像素点个数为N ;被分为前景的像素点集合记为 集fg

合中像素点个数为N ;输出目标记忆模块的初始背景先验概率p(bg)和初始前景先验概率p(fg):

然后输入首帧的第五层层次级联特征 输出目标记忆模块的初始背景目标特征表示 和初始前景目标特征表示5

其中,(i,j)为长宽维度上的任一像素点的坐标, 为首帧层次级联特征V1于该像素点处在通道上对应的向量;

(3‑3)目标记忆模块更新:从第二视频帧开始的视频帧Ft′,t′=2,3,...,T,输入第五层层次级联特征更新目标记忆模块,并输出对应的预测粗糙掩膜(3‑4)将各帧层次级联特征集合 依次按照步骤(3‑2)和(3‑3)操作,输出各视频帧的预测粗糙掩膜

5.如权利要求4所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(4)具体是:

(4‑1)将 与预测粗糙掩膜 按照通道拼接后通过两个卷积层,再进行上采样后输出第四层恢复特征 其中c2为恢复特征的通道数;

(4‑2)将第四层层次级联特征 与第四层恢复特征 按照通道拼接后通过两个卷积层,再进行上采样后输出第三层恢复特征(4‑3)将第三层层次级联特征 与第三层恢复特征 按照通道拼接后通过两个卷积层,再进行上采样后输出第二层恢复特征(4‑4)将第二层层次级联特征 与第二层恢复特征 按照通道拼接后通过两个卷积层,再进行上采样后输出模型预测分割分数(4‑5)输入预测分割分数Ut′,使用Softmax函数计算输出预测精细掩膜:其中, 和 为第t′时

刻视频帧预测分割分数Ut′在该像素点处两个通道对应的数值, 和 分别为坐标(i,j)像素点被预测为背景或前景的概率,再由各个点上的概率构成输出的预测精细掩膜

(4‑6)将层次级联特征集合 和预测粗糙掩膜 依次按照步骤(4‑1)~(4‑5)操作,输出各帧的预测精细掩膜

6.如权利要求5所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(5)具体是:

( 5 ‑1 ) 使 用交 叉 熵 函 数 作 为 模 型 优化 的 损 失 函 数 ,表 达 式 为 :

0 1

其中, m 表示该像素点是否为背景,m表示该像素点是否为前景,即当真实掩膜M在该像素点处的两个通道数值为[0,1]时,该像素点属于背景,两个通道数值为[1,0]时则为前景;类似的,预测精细掩膜 在该像素点处的两个通道数值 表示该像素点为背景或前景的概率;

(5‑2)输入第t′时刻视频帧真实掩膜 通过下采样得到真实粗糙掩膜结合预测粗糙掩膜 计算粗糙损失其中, 和 分别为真实粗糙掩膜 和预测粗糙掩膜 于坐标(i,j)像素点处在通道上对应的向量;

(5‑3)输入第t′时刻视频帧真实掩膜 结合预测精细掩膜 计算精细损失 其中, 和 分别为真实掩膜Mt′和预测精细掩膜 于该像素点处在通道上对应的向量;

(5‑4)计算目标分割网络的最终优化目标损失函数为 表示最终损失,λ>0为调整两部分损失重要性程度的常数,使用该损失函数,通过Adam优化器对特征提取网络、层次级联网络、目标记忆模块和掩膜恢复网络中的参数进行优化,获得训练好的目标分割网络。

7.如权利要求6所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(6)具体是:

(6‑1)对输入的新视频进行帧采样,得到视频帧集合{It|t=1,2,...,T}和首帧掩膜表示新视频在t时刻的视频帧;

(6‑2)将视频帧{It|t=1,2,...,T}按照步骤(1)~(4)输入训练好的目标分割网络中,输出各帧的预测精细掩膜 该掩膜即为视频目标分割任务的最终结果。

8.如权利要求3所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(2‑1)具体是:构建由一个卷积层,一个长宽维度上的全局池化层,一个卷积层和一个Sigmoid激活层顺序构成的注意力网络,Sigmoid函数的表达式为: 其中,x为输入的任意维度张量,exp(·)为指数函数;

n

将第n层残差特征R输入注意力网络,输出通道注意力分数n‑1

构建由池化层和一个卷积层构成的低层次通道嵌入网络,输入第n‑1层残差特征R ,n

输出低层次通道嵌入特征 然后与通道注意力分数A 按通道进行逐元素相乘,输出低层次通道注意力特征n+1

构建由池化层和一个卷积层构成的高层次通道嵌入网络,输入第n+1层残差特征R ,n

输出高层次通道嵌入特征 然后与注意力分数A 按通道进行逐元素相乘,输出高层次通道注意力特征

n‑1 n n+1

将低层次通道注意力特征T ,第n层残差特征R和高层次通道注意力特征T 按照通道拼接得到拼接特征 然后通过一个融合卷积层输出层次级联特征

9.如权利要求4所述的一种基于贝叶斯记忆的层次级联视频目标分割方法,其特征在于,步骤(3‑3)具体是:bg fg

输入 s 和s ,输出背景目标观测概率p(vi,j|bg)和前景目标观测概率p(vi,j|fg):其中, 为 在坐

标(i,j)像素点处在通道上对应的向量, 和 分别表示在背景、前景集合中观测到向量vi,j的概率;

按照贝叶斯公式,输出各像素点处的背景后验概率p(bg|vi,j)和前景后验概率p(fg|vi,j):

和 分别表示坐标(i,j)像素点为背景或前景的后验概率,由各像素点处的后验概率构成第t′时刻视频帧的预测粗糙掩膜 并输出;

由 得到被分为背景像素点集合 和前景像素点集合 两集合中像素点的个数bg fg

分别为 和 输出目标记忆模块更新后的背景像素点个数N 和前景像素点个数N :其中,α∈(0,1)为调整两部分重要性程度的常数;

然后按照步骤(3‑2)更新目标记忆模块,重新计算背景先验概率p(bg)和前景先验概率p(fg);输入第t′时刻第五层层次级联特征 输出目标记忆模块更新后的目标bg fg

特征表示s 和s : 其中,β∈(0,1)为调整两部分重要性程度的常数。