1.一种基于深度学习的学生视点估计方法,其特征在于,包括如下步骤:
1)视频帧获取:依据布置在教室内的摄像头获取学生的视频帧,然后依次将采集的所有学生视频帧输入人脸检测网络模型MTCNN;
2)人脸检测:人脸检测网络模型MTCNN对步骤1)获得的视频帧进行特征提取,检测出每个学生在视频帧中的人脸区域,并记录人脸的左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max),最后,根据左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)对人脸进行裁剪,得到单张人脸图片,人脸的中心坐标(X人脸,Y人脸)如公式(1)所示:
3)hopenet头部姿态估计:将步骤2)裁剪的单张人脸图片输入头部姿态估计网络hopenet中,头部姿态估计网络hopenet对人脸进行特征提取,根据最终的特征图估计人脸的俯仰角pitch、偏航角yaw和滚转角roll;
4)学生视点估计:将步骤3)得到的人脸俯仰角pitch、偏航角yaw和滚转角roll及步骤
2)得到的人脸中心坐标(X人脸,Y人脸)5个参数输入学生视点估计网络gazeNet中,学生视点估计网络gazeNet经过线性回归得到学生在黑板区域的视点坐标(X视点,Y视点),gazeNet网络的神经元线性计算如公式(2)所示,其中ω是gazeNet网络学习得到的网络参数,x是输入的特征参数,b是偏移量,y是计算值,其次,神经元的激活函数采用leakyRelu,如公式(3)所示,其中x是公式(2)的计算值,leak是系数常量,y是神经元的输出值:T
y=ωx+b (2),
y=max(0,x)+leak*min(0,x) (3)。
2.根据权利要求1所述的基于深度学习的学生视点估计方法,其特征在于,步骤4)中所述的学生视点估计网络gazeNet采用深度学习框架Pytorch或TensorFlow进行搭建,并采集大量数据进行标注学习,学生视点估计网络gazeNet设有顺序连接的输入层、隐藏层和输出层,其中,输入层共计五个参数:人脸的中心坐标(X人脸,Y人脸)、人脸俯仰角(pitch)、偏航角(yaw)和滚转角(roll),隐藏层设有3个全连接层,每一个全连接层有12个神经元,神经元对上一层的输出值进行公式(2)计算,并用公式(3)激活输出。第1个全连接层的12个神经元采用公式(2)对输入层的5个参数进行计算,并将计算结果采用公式(3)激活输出;第2、3个全连接层对各自上一层的12个神经元的输出结果进行公式(2)的线性计算以及公式(3)的激活,并输出。