1.一种运行于树莓派的情绪感知方法,其特征在于,该方法具体包括以下步骤:
步骤1、数据预处理:;在图像输入方面,对摄像头捕捉的环境进行人脸检测并裁剪出人脸,再对裁剪后的人脸图片归一化,以实现后续的特征提取;在语音输入方面,对麦克风收集到的声音信息先做静音检测,经滤波器滤波加窗,以滤除环境中不必要的杂音;;
对提取到的表情数据转化成灰度图,进一步采取灰度图归一化,使其像素的灰度值分布在0至255之间,避免图像对比度不足,还能加快网络的训练速度;由于在情绪识别中,最关键的问题是根据人脸的表情来提取特征,所以使用灰度归一化将原来的三维数据降到二维,进而能大大提升网络的训练速度;
步骤2、数据增强:
对步骤1处理后图像进行仿射变换;
步骤3、对步骤1中提取到的环境人声,进行预加重、分频和加窗,进一步提取梅尔声谱图及其一阶、二阶差分图,组成三通道的图像数据送入神经网络中进行下一步的特征提取;
步骤4、网络模型优化:去掉18层的残差网络ResNet18最后的分类层并用支持向量机进行替代;在语音处理方面,在CRNN的基础上加入注意力机制,对提取到的声谱图进行进一步的特征提取;
步骤5、模型训练:在图像处理的神经网络中,先使用14种复合情绪进行训练,后使用迁移学习对7种基本的情绪进行微调;前者能够加强模型的鲁棒性与泛化能力,后者使用七种基本情绪微调使之能与适应语音模型的输出结果来支持进一步的分析;通过试验得到最佳的超参数,最后经过训练得到分类性能最佳的图像和语音模型;
步骤6、数据融合:经神经网络分类之后会得到两列7*1的向量,分别代表从人脸识别得的情绪分类与从语音获得的情绪分类结果,储存于文件中;对于一段时间内采集到的数据,根据用户所处的环境不同,用户可选择最佳的图像数据与声音数据权重,得到该段时间内的情绪概率结果;
步骤7、模型移植:将树莓派平台配置的深度学习框架Tensorflow作为桥梁,将训练的到的深度学习模型运行在树莓派终端;这样既能充分利用树莓派系统的可迁移性、便捷性,还能够最大程度提升系统的性价比;
步骤8、基本情感的检测:使用打开设备之后,系统每隔一定时间捕捉摄像头数据与环境声数据,通过剔除极端数据和多次数据取平均采样最后经分析得到一段时间内的情绪概率模型、PAD三维空间情感的映射分析数据。
2.根据权利要求1所述的一种运行于树莓派的情绪感知方法,其特征在于,所述的仿射变换包括但不局限于对图像的缩放,旋转,剪切,翻转和平移的组合。
3.根据权利要求1所述的一种运行于树莓派的情绪感知方法,其特征在于,对步骤1中提取到的环境人声,进行预加重、分频和加窗,其中窗函数公式如下:其次对每一个短时分析窗进行FFT,即短时傅里叶变换得到相应的频谱,来获得分布在时间轴上不同时间窗内的频谱:xi为信号x的第i帧,其中N通常为256或512;
最后将频谱通过Mel滤波器得到Mel频谱;公式如下:
Mel(f)=2595*10g10(1+f/700)。