1.一种基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述方法具体为:(1)构建四元数时空卷积神经网络;
(2)将包含多种人体动作的F组彩色图像表示为四元数的形式,将其中f组彩色图像作为训练集,将训练集作为训练样本输入所述四元数时空卷积神经网络,并利用BP算法训练训练集样本,得到训练好的四元数时空卷积神经网络;
(3)将其他F-f组彩色图像作为样本输入训练好的四元数时空卷积神经网络,利用训练好的四元数时空卷积神经网络将彩色图像分类,实现人体行为识别;
所述四元数时空卷积神经网络包括空间卷积层、时间卷积层、下采样层、全连接层、长短时记忆单元和分类器;样本经空间卷积层、时间卷积层、下采样层循环P次得到样本的特征图序列,全连接层将序列中每一个特征图都拉伸成一个特征向量,长短时记忆单元将特征向量输送至分类器,分类器依据特征向量将样本分类;
所述四元数时空卷积神经网络包括3P+1层结构;
F、f、P均为自然数。
2.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述包含多种人体动作的F组彩色图像表示为四元数的形式为:彩色图像Q中(x,y)位置的像素用一个纯四元数表示,公式如下:Q(x,y)=Qr(x,y)i+Qg(x,y)j+Qb(x,y)k或表示为向量的形式:
Q(x,y)=(Qr(x,y),Qg(x,y),Qb(x,y))其中,Qr(x,y),Qg(x,y)和Qb(x,y)分别为像素的R,G和B通道的值;一张彩色图像可以表示为:Q=(Qr,Qg,Qb);
所述四元数时空卷积神经网络的卷积核以四元数形式。
3.根据权利要求1所述基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,在步骤(2)和步骤(3)中所述彩色图像经过预处理后作为样本输入,所述预处理方法为采用码本模型,以a×d的检测窗口提取图像中人体运动的关键区域,并保存区域图像;
检测窗口的大小根据所述彩色图像中人体的大小进行选择,以在包括人体的条件下尽可能小的尺寸;
a、d为常数。
4.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述空间卷积层的具体操作为:在四元数时空卷积层,卷积核被扩展成纯四元数的表示形式W=(Wr,Wg,Wb),按照下式的卷积操作,输入一张彩色图像Q=(Qr,Qg,Qb),第i层第j个特征图中(x,y)位置的卷积结果为:W×Q=(WgQb-WbQg,WbQr-WrQb,WrQg-WgQr)其中,f是sigmoid函数,bi,j是第i层第j个特征图的偏置, 是第i层第j个特征图和第i-1层第p个特征图之间的卷积核的(n,m)位置的权值向量,N和M是卷积核的长和宽;Q(i-1),p(x+n,y+m)表示第i-1层第p个特征图Q中的(x+n,y+m)位置的像素;Zi,i(x,y)表示第i层第j个特征图中(x,y)位置的卷积结果;
操作是两个纯四元数向量元素对应相乘,提取的是每个通道上的空间特征;×操作是叉积操作,提取的是不同颜色通道的空间关系。
5.根据权利要求2所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述时间卷积层的具体操作为:在时间卷积层分别提取三个颜色通道的近邻帧动态信息,四元数空间卷积层输出特征图序列Z={Z1,Z2,...,Zt},每个通道的时间卷积操作如下:其中,f是sigmoid函数,bi是第i层的偏置,c是指图像的第c个通道,s是指时间卷积核的第s维,共S维, 是第i层第c个通道第s时间维的权值; 表示第i层第t帧第c通道的时间卷积结果;
假设输入序列的帧数为T,那时间卷积层输出序列的帧数为T'=T-S+1。
6.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述提取图像中人体运动的关键区域是指,采用码本模型,得到背景和前景分割的二值图像,背景像素为1,人体运动的前景像素为0;然后,计算所有前景像素的中心点,并以其为a×d检测窗口的中心点,在原彩色图像中提取出人体运动的区域图像;
为进一步减少网络训练参数,采用最近邻插值法将区域图像缩放至g×h像素,并保存缩放后的图像;
g、h为常数。
7.根据权利要求3所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,输入视频集:将Weizmann视频集中bending,jacking,jumping,pjumping,running,siding,skipping,walking,waving one hand,waving two hands动作的视频图像作为所述包含多种人体动作的F组彩色图像输入;所述四元数时空卷积神经网络为7层结构,检测窗口的大小为90×90,缩放后的区域图像像素为36×36。
8.根据权利要求7所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,构建的四元数时空卷积层的网络结构为:
输入大小为36×36×5的彩色图像序列,其中,36×36为每一帧的分辨率,5为图像序列的帧数;
在第一层四元数空间卷积层QSC1中,卷积核尺寸为5×5×3,其中5×5为图像分辨率,3为彩色图像的通道数,用3个卷积核产生3个32×32×5的特征图序列;
在第二层时间卷积层TC2中,将第一层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,其中,3为时间维度,得到3个32×32×3的特征图序列;
在第三层下采样层S3中,采用2×2窗口对第二层特征图中的每个通道进行下采样操作,得到3个16×16×3的特征图序列;
在第四层四元数空间卷积层QSC4中,卷积核尺寸为5×5×3,用6个卷积核对第三层的特征图进行四元数卷积操作,产生6个12×12×3的特征图序列;
在第五层时间卷积层TC5中,将第四层特征图中的每个通道用1×1×3卷积核对进行时间卷积操作,产生6个12×12×1的特征图序列;
在第六层下采样层S6中,采用3×3窗口对第五层特征图中的每个通道进行下采样操作,得到6个4×4×1的特征图序列;
在第七层全连接层F7中,将第六层每一个特征图都拉伸成一个特征向量,得到288维度的特征向量;
在长短时记忆单元中,输入第七层全连接层的特征向量,并连接分类器进行动作分类。
9.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,所述分类器为Softmax分类器。
10.根据权利要求1-8任一所述的基于四元数时空卷积神经网络的人体行为识别方法,其特征在于,采用BP算法训练构建的四元数时空卷积神经网络具体为:
1)随机初始化四元数时空卷积神经网络中网络权值和偏置,逐层计算每层的输入和输出;
2)采用梯度下降法确定网络的最优权重值和最优偏置,获得训练集的分类准确率;
3)根据训练结果调整卷积核的数量、大小以及网络的层数,选取获得最高准确率的网络结构作为训练好的四元数时空卷积神经网络的结构。