1.一种基于深度学习的视频人群情绪分析方法,其特征在于,所述方法包括:获取待分析的视频流数据,利用高斯降噪方法对视频流中的每一帧图片进行降噪处理,并利用鬼影消除算法对视频帧图片进行鬼影消除处理;
利用尺度自适应的人群姿态获取算法提取视频帧图片中人群的姿态特征;
利用人脸检测算法检测视频帧图片的人脸,并对检测到的人脸进行裁剪,得到人脸图像;
利用表情识别算法对人脸图像进行特征提取,提取到人脸表情特征;
根据提取的人群姿态特征以及人脸表情特征,利用情绪识别模型对视频中人群进行情绪分析处理;
所述利用情绪识别模型对视频中人群进行情绪分析处理,包括:
1)将人群姿态特征和人脸表情特征拼接为情绪特征F:F={(x1,y1,t1),(x2,y2,t2),…}其中:
xi表示在ti时刻的人群姿态特征;
yi表示在ti时刻的人脸表情特征;
2)利用情绪识别模型提取训练的情绪识别特征;
3)将情绪特征F输入到情绪识别模型中:其中:
N表示情绪识别模型中卷积层的数量;
Wi表示第i层卷积层的权重;
bi表示第i层卷积层的偏置向量;
y表示情绪识别特征;
将情绪识别模型转换为卡尔曼滤波模型:其中:
F(k)表示卡尔曼滤波系统的N个状态;
X(k‑1)表示状态转移矩阵;
r(k)表示系统噪声;
由k‑1时刻的估计值 和状态转移矩阵X(k‑1)估计下一时刻预测值由k‑1时刻误差协方差矩阵P(k‑1|k‑1)和噪声方差矩阵Q(k‑1)计算得到下一时刻预测误差协方差矩阵P(k|k‑1):T
P(k|k‑1)=X(k‑1)P(k‑1|k‑1)X(k‑1)+Q(k‑1)计算增益矩阵:
T
M(k)=P(k|k‑1)[P(k|k‑1)+X(k‑1)]计算得到时刻k的状态估计值
重复上述步骤,最终计算得到的状态估计值即为情绪识别特征;
4)将情绪识别特征与预提取到的训练情绪识别特征进行特征匹配,选取匹配度最高的训练情绪识别特征所对应的情绪标签作为识别到的情绪,所述特征匹配算法为余弦相似度算法。
2.如权利要求1所述的一种基于深度学习的视频人群情绪分析方法,其特征在于,所述利用鬼影消除算法对视频帧图片进行鬼影消除处理,包括:
1)选取视频中无运动物体的帧图片作为参考图片,参考图片的灰度级概率密度为pr(r),非参考图片的灰度级概率密度为pz(z),计算参考图片与非参考图片的映射关系为:其中:
z表示参考图片像素;
r表示非参考图片像素;
H(·)表示直方图匹配操作;
对非参考图片中的每个像素进行直方图匹配处理,得到曝光调整后的视频帧图片;
2)计算参考图片和非参考图片之间的差分图像:k
D=|Ik‑I|
其中:
Ik表示曝光调整后的第k张视频帧图片;
I表示参考图片;
k
D表示第k张非参考图片与参考图片之间的差分图像;
3)计算差分图像的信息熵:
其中:
f(i,j)表示差分图像的像素值,i和j分别表示像素点的行和列;
M×N像素表示差分图像的大小;
4)利用阈值识别差分图像像素:其中:
Fk(x,y)表示消除鬼影权重图,当Fk(x,y)=0时,该像素为动态像素,当Fk(x,y)=1时,该像素为静态像素;
T为像素划分阈值,将其设置为2;
对于视频帧图片中的每个像素:
I′k(x,y)=Ik(x,y)×Fk(x,y)其中:
Ik(x,y)表示第k张非参考图片的像素(x,y);
I'k(x,y)表示第k张非参考图片的鬼影消除后的像素(x,y)。
3.如权利要求2所述的一种基于深度学习的视频人群情绪分析方法,其特征在于,所述利用尺度自适应的人群姿态获取算法提取视频帧图片中的姿态特征,包括:
1)将连续的视频帧图片作为基于时序的LSTM模型输入,其中LSTM模型的输入为xi,t,i∈{1,2,...,K},K表示骨骼关键点总数,t∈{1,2,...,T}表示时间帧;
2)利用前向传播算法进行LSTM参数更新:ci,t=xi,t⊙ci,t‑1hi,t=tanh(ci,t)其中:
ci,t表示t时刻的单元状态;
hi,t表示t时刻的单元隐藏层;
3)计算LSTM模型的初始全局上下文存储信息M0:
4)重复n次2)‑3),得到n次前向传播的存储信息Mn‑1;计算每个hi,t的信息得分:选取得分最高的H个单元隐藏层hi,t作为人群中的姿态特征;将H设置为100。
4.如权利要求3所述的一种基于深度学习的视频人群情绪分析方法,其特征在于,所述利用人脸检测算法检测视频帧图片的人脸,包括:
1)获取训练样本集S={(x1,y1),(x2,y2),...,(xN,yN)},其中xi为图像数据,yi表示图像标签,yi=‑1表示当前图像不存在人脸,yi=+1表示当前图像存在人脸;其中不存在人脸的样本数为m,存在人脸的样本数为n,N=n+m;
2)初始化训练样本权重:
W1=(w11,w12,...,w1N)
3)利用Adaboost算法对待权重的样本进行训练,得到若干弱分类器Oc(x);计算弱分类器的分类误差率:ec=P(Oc(xi)≠yi)并计算弱分类器Oc(x)的权重:
4)将弱分类器通过线性组合方式进行组合,生成一个强分类器O(x):其中:
K表示生成的弱分类器数量,将其设置为20;
5)将待检测视频帧图片输入到强分类器O(x)中,若O(x)值为1,则说明待检测视频帧图片为存在人脸,则对检测到的人脸进行裁剪,得到人脸图像。
5.如权利要求4所述的一种基于深度学习的视频人群情绪分析方法,其特征在于,所述利用表情识别算法对人脸图像进行特征提取,包括:网络上支路输入第一帧中的人脸图像,作为模板输入;网络下支路输入后续帧的人脸图像,作为待检测输入;两个输入分别通过权值共享的全卷积神经网络操作做特征映射;
使用3×3像素大小的卷积核对模板输入进行卷积处理,并将卷积通道数调整为k倍,得到尺度为3×3×k像素大小的模板特征使用3×3像素大小的卷积核对待检测输入进行卷积处理,得到尺度为3×3×1像素大小的待检测特征τ(x);
将模板特征 在卷积通道上按序等分为k份,将其看作是k个大小为3×3×1的卷积核;将k个卷积核与待检测特征τ(x)进行卷积处理,生成卷积通道数为k的特征图,并将生成特征图作为人脸表情特征。
6.一种基于深度学习的视频人群情绪分析系统,其特征在于,所述系统实现如权利要求1所述的基于深度学习的视频人群情绪分析的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频人群情绪分析程序指令,所述视频人群情绪分析程序指令可被一个或者多个处理器执行,以实现如权利要求1所述的基于深度学习的视频人群情绪分析的方法的步骤。