欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021114043500
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于目标空间语义对齐的视频描述方法,其特征在于,该方法首先获取包含描述语句的视频数据集合,然后进行如下操作:步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;

步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;

步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词‑视频帧对齐和单词‑视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;

步骤(4).将注意力特征向量输入注意力‑语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;

步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。

2.如权利要求1所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(1)具体是:

(1‑1).对视频均匀采样N个视频帧,获得帧序列集合 其中三维张量xi为第i帧图像, 表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码 其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;

(1‑2).利用残差网络提取视频的外观特征向量集合 其中表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合 其中 表示第i‑1帧至第i+1帧提取的运动特征向量,m表示运动,表示运动特征的通道维度;

a m

(1‑3).将V中的外观特征向量 以及V 中的运动特征向量 依次沿通道维度进行拼接,得到视频特征向量集合 其中vi表示为第i个视频帧特征向量,其通道维度大小

(1‑4).对于视频帧xi,利用掩膜区域卷积神经网络进行目标检测,获取第i个视频帧中的目标特征向量集合 和目标掩膜集合Gi={gi,j|0≤j≤M,gi,jH×W

∈0,1 },oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,gi,j表示第i个视频帧的第j个目标的掩膜。

3.如权利要求2所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(2)具体是:

(2‑1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合 将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即 其中表示第i帧中第q个目标中的第ω个像素点 与第i帧中第w个目标中的第σ个像素点 之间的距离小于ψ,ψ为正实数,||·||2为L2范数;

(2‑2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数 表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点, 表示当两个目标匹配时为1,否则为0;将目标对匹配数 归一化处理,获得归一化目标对匹配得分利用归一化目标对匹配得分 构建目标对匹配得分矩阵集合:其中,第i个视频帧的目标对匹得分矩阵其中归一化目标对匹配得分 为目标对匹得分矩阵中第q行、第w列的元素,也即第i个视频帧中第q个目标和第w个目标在所有视频帧中的匹配次数的归一化得分;

(2‑3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度 所述的共享边界长度是指两个目标之间相邻像素点的个数,其中 用于计算两个目标的共同边界长度;

输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长Τ(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度与目标周长 计算目标对共边缘率 即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率归一化处理,得到归一化目标对共边缘率得分利用归一化目标对共边缘率得分 构建目标对共边缘率矩阵集合:其中,第i个视频帧的目标对共边缘率矩阵归一化目标对匹配得分 为目标对共边缘率矩阵 中第q行、第w列的元素,表示第i个视频帧中第q个目标和第w个目标在所有视频帧中的共边缘率的归一化得分;

(2‑4).利用目标对共边缘率矩阵集合 与目标对匹配得分矩阵集合 获取目标邻接关系矩阵集合 其中,第i个视频帧的目标邻接关系矩阵 目标邻接关系矩阵Qi的元素为目标邻接关系得分ei,q,w。

4.如权利要求3所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(3)具体是:

(3‑1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词‑视频帧和单词‑视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;

(3‑2).构建单词选择子模块,具体是:①首先输入生成的单词组集合 t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵 表示对单词yt进行词嵌入编码, 为可学习矩阵,l表示词向量的长度,T表示转置;

T

②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft‑1] ,使用点积注意力方法获取第t时间步的单词注意力矩阵 softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;

③使用余弦相似度计算单词和单词之间的相关程度:第t个时间步中第p个单词与其他单词的相关程度 输出单词相似度集合{α1,t,...,αp,t,...,αt‑1,t};

④将单词相似度集合{α1,t,...,αp,t,...,αt‑1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集 表示第t时间步加入候选集中的第 个历史单词嵌入向量;

(3‑3).构建随机注意力子模块,具体是:①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi:其中,

为可学习参数向量,θ表示为可学习参数向量的数目,z表示正整数;

②然后利用第t时间步单词候选集Pt的历史单词嵌入向量 计算第t时间步第 个历史单词的随机单词特征向量

其中,

为可学习参数向量;

③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量 和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第 个历史单词的单词‑视频帧对齐特征向量 其中, 表示外积, 为可学习参数矩阵;

(3‑4).构建目标随机注意力子模块,具体是:①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量 使用加性注意力方法计算关系得分 表示第t时间步时第 个历史单词与第i个视频帧之间的关系得分,其中 分别是可学习的参数矩阵, 为可学习的参数向量,为可学习的参数矩阵的第一个维度;

②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量 其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合

③利用第i帧中第q个目标的目标邻接关系特征向量ci,q,计算第i帧中第q个目标的随机目标邻接关系特征向量

其中,

为可学习参数向量;

④在第t时间步时,利用随机目标邻接关系特征向量 历史单词的随机单词特征向量 和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第 个历史单词与第i个视频帧的单词‑视频帧目标对齐特征向量其中, 为可学习参数矩阵;

⑤利用关系得分 和单词‑视频帧目标对齐特征向量 计算得到第t时间步第 个历史单词的单词‑视频目标对齐特征向量(3‑5).最后将单词‑视频帧对齐特征向量 单词‑视频目标对齐特征向量 和历史单词嵌入向量 依次在通道上拼接,得到第 个历史单词的注意力特征向量表示

5.如权利要求4所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(4)具体是:

(4‑1).构造注意力‑语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第 个历史单词的注意力特征向量 将所有的历史单词的注意力特征相加得到注意力语义对齐向量(4‑2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量 和第t‑1时间步的时序注意力隐藏向量 输入长短时记忆网络,输出为时序注意力特征γ表示注意力隐藏向量维度大小,Attn表示注意力;

将第t时间步的时序注意力特征 第t‑1时间步生成的历史单词嵌入向量ft‑1和时序语言 隐 藏向 量 输 入 长短 时 记 忆网 络 ,输出 为 时 序语 言 特 征上标Lang表示语言;

(4‑3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量 其中 表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量 并将其加入历史嵌入矩阵Rt=[f1,f2,...,T

ft‑1]得到

(4‑4).针对真实的文本描述语句B,历史单词嵌入矩阵Rt+1,计算两者的交叉熵损失其中 表示独热编码。

6.如权利要求5所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(5)的具体是:

(5‑1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力‑语言记忆模块;

(5‑2).输入新视频均匀采样N个视频帧后得到 首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量 分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1;

(5‑3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。