1.基于CNN-LSTM的舞蹈情感识别方法,其特征在于,包括以下步骤:步骤1,基于拉班动作分析方法LMA对舞蹈情感的描述,从舞蹈动作数据集中计算出舞蹈情感数据集;
步骤2,针对步骤1中的舞蹈情感数据集的每一帧数据进行维度转换,转换为2*160的输入维度,输入至三层CNN卷积神经网络中,提取舞蹈情感特征,得到舞蹈情感特征向量;
步骤3,将步骤2舞蹈情感特征向量输入到LSTM长短时记忆神经网络中,并通过全连接层进行特征融合,同时,使用BN层对特征数据进行归一化处理,最后使用softmax层进行分类,完成舞蹈情感识别。
2.根据权利要求1所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤1具体为:步骤1.1,使用可穿戴的动作捕捉设备绑定人体关键骨骼部位,并采集若干舞蹈动作数据并保存为BVH动作捕捉文件;
步骤1.2,将步骤1.1中的所述BVH动作捕捉文件的动作捕捉数据区的每一帧数据进行提取,其中,每一帧数据均由人体骨骼节点的世界坐标和欧拉角组成,得到舞蹈动作数据;
步骤1.3,通过肢体结构、空间方位、力效三个参数对舞蹈情感的分析和描述,将步骤
1.2的舞蹈动作数据进行情感特征的计算,得到舞蹈情感数据集。
3.根据权利要求2所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤
1.3中:
所述肢体结构以骨骼对距离d为参数描述,相邻节点i和j之间的骨骼对距离具体为:其中节点i的坐标为(xi,yi,zi),节点j的坐标为(xj,yj,zj);
所述空间方位以人体肚脐Hips为中心,竖直方向分为三个区域,水平方向以22.5°为夹角,分为九个区域;
所述力效以骨骼节点加速度a和任一骨骼节点速度v为参数描述,具体为:a=Δv/t (3)其中,节点i上一时刻的坐标为(xi-1,yi-1,zi-1),每一帧时间为t,Δv为速度增量。
4.根据权利要求3所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤2中三层CNN卷积神经网络包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层,具体为:步骤1.1中每一帧数据分别计算的特征值中相对距离有52个,速度有54个,加速度有54个,故每一帧共有320个数据,所述输入层数据大小为2*160;
所述第一卷积层为1*2的一维卷积核、卷积核数18个、卷积核步长为1,第二卷积层为1*
2一维卷积核、卷积核数36个、卷积核步长为1;第三卷积层为1*2一维卷积核、卷积核为72个、卷积核步长为1;
所述第一池化层、第二池化层和第三池化层均为1*2窗口、步长为2,且第二池化层和第三池化层均采用SAME方式填充。
5.根据权利要求1所述的基于CNN-LSTM的舞蹈情感识别方法,其特征在于,所述步骤3具体包括:步骤3.1,更新遗忘门,具体如公式(4):
ft=σ(wf·[ht-1,xt]+bf) (4)公式(4)中,参数σ为激活函数,参数wf为遗忘门的权值,参数为ht-1神经元上一时刻的输出,参数xt为当前时刻的输入,参数bf为遗忘门的偏移量;
步骤3.2,更新输入门的输出,如公式(5)和(6):it=σ(wi·[ht-1,xt]+bi) (5)公式(5)中,参数wi为输入门的权值,参数bi为输入门的偏移量;
公式(6)中,参数tanh为激活函数,参数wc为当前输入单元状态对应的权值,参数bc为当前输入单元状态对应的偏移量;
合并公式(5)、公式(6)以及公式(4),更新单元状态,得到公式(7),在公式(7)中,ft为遗忘门的输出值,ct-1上一时刻的单元状态值,it为输入门的输出值,为当前输入的单元状态;
步骤3.3,更新输出门,具体如公式(8)和(9),ot=σ(wo·[ht-1,xt]+bo) (8)ht=ot·tanh(ct) (9)在公式(8)中,参数wo为输出门的权值,参数bo为输出门的偏移量;
公式(9)中,参数ot为上一步输出,ct为更新的单元状态值,参数tanh为激活函数;
步骤3.4,将步骤3.3中的输出包含时间与舞蹈情感数据序列的向量输入到全连接层,进行特征融合,并使用BN层对特征数据进行归一化处理;
步骤3.5,将BN层处理后输出数据传入softmax层进行分类,如公式(10),使概率值处于[0,1]之间,得到数据的预测标签值,其中最大的标签值即为分类结果;
公式(10)中,yi为归一化得到的输出结果,exp为指数函数。