欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021105185254
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,该方法首先获取高清课堂学生视频数据,然后进行以下操作:步骤(1)对高清课堂学生视频数据进行预处理,得到学生动作视频帧序列;

步骤(2)构建双尺度特征嵌入模块,输入为学生动作视频帧序列,输出为双尺度时空特征表示;

步骤(3)构建时空分块互注意力编码器,输入为双尺度时空特征表示,输出为双尺度分类向量;

步骤(4)构建课堂动作分类模块,输入为双尺度分类向量,输出为动作类别概率向量;

步骤(5)对由双尺度特征嵌入模块、时空分块互注意力编码器、课堂动作分类模块组成的动作识别模型进行迭代训练,直至模型收敛;

步骤(6)对新的课堂学生视频进行预处理,先将首帧图像输入预训练的目标检测模型,得到学生边界框并据此获得相应视频帧序列,然后将其输入已训练好的动作识别模型,最终输出学生动作的类别。

2.如权利要求1所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(1)具体是:

(1‑1)对每个高清课堂学生视频,以每秒k帧的采样率处理为相应的视频帧序列,以60k帧为时间间隔,将高清课堂学生视频帧中的学生位置边界框进行标注,获得高清课堂学生图像数据集,k=15~30;

(1‑2)对每个学生位置边界框,使用OpenCV的矩阵索引方法截取边界框区域内的60k帧图像,并将高和宽缩放至相同分辨率,得到学生动作视频帧序列 为实数域,动作的类别序号为b,b=1,…B,B为动作类别总数,fi表示帧序列中第i幅高为H、宽为W的RGB三通道图像,T为总帧数,即T=60k。

3.如权利要求2所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(2)具体是:

(2‑1)双尺度特征嵌入模块由三维卷积层、三维平均池化层、特征分块操作以及线性嵌入层构成;

(2‑2)将学生动作视频帧序列V输入至三维卷积层得到时空特征,然后将时空特征放入至三维平均池化层,得到池化时空特征 其中h、w、c、t分别为池化时空特征的高度维度、宽度维度、通道维度、时序维度;

(2‑3)对池化时空特征 的高度维度和宽度维度分别以L×L和S×S尺度进行特征分块操作,并将各个块的特征通过线性嵌入层映射,得到第t时刻第p块的大尺度块特征向量 和小尺度块特征向量 D表示特征向量的维度,L和S为分块尺度大小,L=γS,γ>0为尺度倍数;

将两种块特征向量分别进行拼接,得到大尺度时空特征矩阵和小尺度时空特征矩阵

[·,…,·]表示拼接操作;其中,大尺度空间特征分块总数 小尺度空间特征分l s

块总数 输出双尺度时空特征表示{X ,X}。

4.如权利要求3所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(3)具体是:

(3‑1)时空分块互注意力编码器由R个时空分块互注意力模块串连组成,每个时空分块互注意力模块均由时空块生成子模块、时空注意力子模块和尺度互注意力子模块构成;输l s

入为双尺度时空特征表示{X,X};

(3‑2)第r个时空分块互注意力模块 输入的双尺度时空特征张量 其中,输入的大尺度时空特征矩阵 输入的小尺度时空特征矩阵和 为大尺度分类向量和小尺度分类向量;

第r个时空分块互注意力模块 输出的双尺度互注意力特征张量 其中,输出的大尺度互注意力特征矩阵 输出的小尺度互注意力特征矩阵 和 为输出的大尺度分类向量和小尺度分类向量, 和 为输出的大尺度时空特征矩阵和小尺度时空特征矩阵;

当r=1时,输入的大尺度时空特征矩阵 输入的小尺度时空特征矩阵大尺度分类向量 和小尺度分类向量 由随机初始化获得;

当R≥r>1时,输入的双尺度时空特征张量 为上一个时空分块互注意力模块 输出的双尺度互注意力特征张量 即时空分块互注意力编码器的输出为第R个时空分块互注意力模块的输出 中的双尺度分类向量 与

r

(3‑3)第r个双尺度时空分块互注意力模块 的时空块生成子模块将输入的 中的Z,l r,s

和Z 分别重组至统一尺寸的大尺度特征映射 和小尺度特征映射其中,高度维度 宽度维度

r r r

按照高度维度h 、宽度维度w、时间维度t将 进行时空分块,得到第r组大尺度时空r

块特征张量 其中j为大尺度时空块的索引下标,Q 为第r组大尺度时空块的总数,满足条件: 且第r组时空块的尺度大小均为第r‑1组时空块的λ倍,λ>0,即

然后将 进行维度变换,得到大尺度时空块的时空特征矩阵 其中大尺l r r

度时空块的空间特征分块总数n=hw;

将 与 拼接,得到更新后的第r组第j块大尺度时空块特征张量元素相同操作,得到更新后的小尺度时空块特征张量元素 其中s r r 2

小尺度时空块的空间特征分块总数n=hwγ;

获得第r组双尺度时空块特征张量 与(3‑4)第r个双尺度时空分块互注意力模块 的时空注意力子模块的输入为时空块生成子模块的输出的 和 将第r组第j个大尺度时空块特征张量元素 进行线性映射得到其在每个注意力头的查询矩阵 键矩阵和值矩阵 其中,注意力头序号a=1,…,A,A为注意力头总数,映射矩阵内每个向量的维度 计算其对应的多头时空自注意力权重特征其中Softmax(·)为归一化指数函数;

使用 可学习参数 和残差结构计算得到该大尺度时空块时空注意力特征矩阵

将 分解获得更新后的大尺度时空块分类向量 和大尺度时空块时空特征矩阵 MLP(·)表示多层感知机,LN(·)表示层归一化;

相同操作,得到小尺度时空块时空注意力特征矩阵由此获得第r组双尺度时空块时空注意力特征张量 和(3‑5)第r个双尺度时空分块互注意力模块 的尺度互注意力子模块的输入为时空注意力子模块的输出 和 其中,第r组第j个双尺度时空块分类向量为 和 双尺度时空块时空特征矩阵为 与将大尺度时空块分类向量 进行线性映射,得到其查询向量 将大尺度时空块分类向量 与小尺度时空块时空特征矩阵 进行线性映射得到其键矩阵和值矩阵 计算多头时空自注意力权重特征使用 可学习参数 和残差结构计算得到更新后的大尺度时空块分类向量由此获得第r组所有大尺度时空块分类向量 将其进行线性映射得到更新后的大尺度分类向量

将第r组所有大尺度时空块时空特征矩阵拼接,得到大尺度时空特征矩阵将其与大尺度分类向量拼接,得到大尺度互注意力特征矩阵相同操作,得到小尺度分类向量 和小尺度互注意力特征矩阵第r个时空分块互注意力模块输出为双尺度互注意力特征张量

5.如权利要求4所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(4)具体是:

(4‑1)课堂动作分类模块的输入为双尺度时空分块互注意力编码器输出的双尺度分类向量 和 利用多层感知机分别计算学生动作所属动作类别的大尺度得分向量和小尺度得分向量

(4‑2)输出动作类别概率向量

6.如权利要求5所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(5)具体是:

(5‑1)由步骤(2)的双尺度特征嵌入模块、步骤(3)的双尺度时空分块互注意力编码器与步骤(4)的动作分类模块构成动作识别模型(5‑2)动作识别模型 的输入为学生动作视频帧序列V,由双尺度特征嵌入模块计算输l s

出双尺度时空特征矩阵X 和X ,将双尺度时空特征矩阵输入至双尺度时空分块互注意力编码器,输出双尺度分类向量 和 将双尺度分类向量输入至动作分类模块,输出学生动作所属动作类别的概率向量;

(5‑3)迭代训练动作识别模型直至模型收敛:设定动作识别模型的损失函数为交叉熵损失 利用随机梯度下降算法优化动作识别模型,通过反向梯度传播更新模型参数直至损失收敛;其中yb为学生动作属于动作类别b的概率, 为真实标记,若课堂学生视频的动作类别属于b, 否则

7.如权利要求6所述的基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,步骤(6)具体是:

(6‑1)将标有学生位置边界框的高清课堂学生图像数据集输入在COCO2017数据集上预训练的目标检测模型YOLOv5,迭代训练该模型直至模型收敛,获得目标检测模型(6‑2)对于新的课堂学生视频,利用(1‑1)获得其视频帧序列,将首帧图像输入目标检测模型 得到每位学生的位置边界框,利用(1‑2)获得每位学生的动作视频帧序列其中,φ为学生序号,χ为学生总数, 表示第φ个学生帧序列中第i幅高为H宽为W的RGB三通道图像;

(6‑3)将每个学生的动作视频帧序列 输入至步骤(5)中训练得到的动作识别模型中,得到第φ个学生的动作类别概率向量 并将最大概率值对应的动作类别b′作为φ

学生动作所属的类别,b′=argmax(y ),其中argmax(·)为向量中最大元素的索引。