1.基于注意力机制的多特征融合视线估计方法,其特征在于,包括以下步骤:
S1,利用MTCNN算法对原始图片进行人脸检测及人脸关键点定位,从而获得视线估计所需的人脸和眼睛图片;
S2,利用基于组卷积通道和空间注意力机制的人脸特征提取器提取头部姿态特征,以及除眼睛外其他与视线估计相关的面部特征;
所述组卷积通道和空间注意力机制包括组卷积通道注意力模块和空间注意力模块,所述组卷积通道注意力模块由两个组卷积模块及一个全局平均池化模块组成,所述空间注意力模块的输入为中间特征图F与组卷积通道注意力图逐元素相乘得到的特征图;
所述组卷积通道注意力图的计算公式为:
MGCCAM=σ(fg_avg(fgcm(fgcm(F))))
其中,F为中间特征图,MaxPool为沿空间轴的最大池化操作,AvgPool为沿空间轴的平均池化操作, 为核大小为3×3×2,步长为1的组卷积,fgcm为组卷积模块,fg_avg为全局平均池化,σ为sigmoid函数,MGCCAM为组卷积通道注意力图;
经所述空间注意力模块处理后的空间注意力图的计算公式为:
其中,F'为组卷积通道注意力图MGCCAM与中间特征图F逐元素相乘得到的特征图, 为矩阵逐元素乘法, 分别为F'沿通道轴进行最大池化和平均池化操作后的特征图,为核大小为3×3×2,步长和填充均为1的卷积层, 为核大小为1×1×1,步长为1的卷积层,MSAM为空间注意力图;
通过所述组卷积通道注意力模块和空间注意力模块后的特征图为:
其中,F”为中间特征图F通过组卷积通道注意力模块和空间注意力模块后的输出特征图;
S3,利用基于组卷积通道和空间注意力机制的眼睛特征提取器提取双眼的眼球姿态特征;
S4,利用特征融合网络将双眼及瞳孔中心位置特征进行融合,并将融合后的特征与人脸特征向量进行拼接以实现多特征融合,最后完成视线估计任务;
所述特征融合网络包括将双眼特征进行融合的双眼特征融合网络和将融合后的双眼特征与瞳孔中心位置特征进行融合的眼瞳特征融合网络。
2.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:步骤S1所述获得视线估计所需的人脸和眼睛图片,包括根据人眼关键点对人脸图片进行裁剪以获得眼睛图片,视线估计所需人脸及双眼图片的尺寸为224×224×3,其中224×224表示人脸和双眼图片的大小,3表示RGB图像的通道数。
3.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述人脸特征提取器为嵌入组卷积通道和空间注意力机制的VGG‑16网络,即在原始网络VGG‑16的第5个池化层后嵌入组卷积通道注意力模块和空间注意力模块,最后经过一个平均池化层和全连接层操作,得到一个256维的人脸特征向量。
4.根据权利要求1或2所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述眼睛特征提取器为,嵌入组卷积通道和空间注意力机制的ResNeXt‑50网络,ResNeXt‑
50由5个卷积块组成,在每个卷积块后增加组卷积通道注意力模块和空间注意力模块。
5.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述双眼特征融合网络包括1个全局平均池化层和3个卷积层,首先将眼睛特征提取器提取的左右眼特征进行级联;然后将级联后的双眼特征送入全局平均池化层和两个1×1的卷积层,输出为一个1×1×2的特征谱权重;最后将级联的双眼特征与特征谱权重进行加权运算,并利用一个1×1的卷积层将加权后的双眼特征进行压缩,得到一个7×7×512的特征图。
6.根据权利要求1所述基于注意力机制的多特征融合视线估计方法,其特征在于:所述眼瞳特征融合网络首先利用1个全局平均池化层和1个全连接层对融合后的双眼特征进行操作,得到一个128维的特征向量;然后将MTCNN算法检测的双眼瞳孔中心坐标送入一个全连接层,得到一个128维的瞳孔中心位置特征向量;最后拼接两个特征向量,并将其送入一个全连接层,得到一个128维的多特征融合向量。