1.一种粗颗粒度指令识别方法,其特征在于,包括:接收用户输入的视频数据和指令音频;
使用已训练实例分割模型从所述视频数据提取物体特征矩阵;
使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵;
对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接,生成融合特征;
将所述融合特征输入到已训练推理分类模型,输出细颗粒度指令组;
所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型,所述将所述融合特征输入到已训练推理分类模型,输出细颗粒度指令组的步骤,包括:将所述融合特征输入到预置全连接层,生成动作‑物体联合特征;
将所述动作‑物体联合特征输入到所述已训练门控循环单元网络,得到目标特征;
将目标特征输入到所述已训练分类模型,确定与所述目标特征对应的指令组类别;
输出与所述指令组类别对应的细颗粒度指令组。
2.根据权利要求1所述的方法,其特征在于,所述使用已训练实例分割模型从所述视频数据中提取物体特征矩阵的步骤,包括:从所述视频数据中提取多个视频帧;
将每个所述视频帧输入到已训练实例分割模型,确定目标物体特征;
将所述目标物体特征输入到预置全连接层,生成物体特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络,所述使用已训练语音模型从所述指令音频中提取粗颗粒度指令特征矩阵的步骤,包括:将所述指令音频转换为梅尔频率倒谱系数特征数据;
输入所述梅尔频率倒谱系数特征数据到所述一维卷积神经网络,得到与所述梅尔频率倒谱系数特征数据对应的指令信息;
将所述指令信息输入到所述双向长短期记忆网络,得到粗颗粒度指令特征;
将所述粗颗粒度指令特征输入到预置全连接层,生成粗颗粒度指令特征矩阵。
4.根据权利要求1至3任一项所述的方法,其特征在于,在所述接收用户输入的视频数据和指令音频的步骤之前,所述方法还包括:获取样本数据;所述样本数据包括已分类的视频数据和已分类的指令音频;
采用所述已分类的视频数据对预置的未训练实例分割模型进行训练,得到已训练实例分割模型;
采用所述已分类的指令音频对预置的未训练语音模型进行训练,得到已训练语音模型;
获取融合样本数据;
通过所述融合样本数据训练预置的未训练推理分类模型,得到已训练推理分类模型。
5.一种粗颗粒度指令识别装置,其特征在于,包括:数据接收模块,用于接收用户输入的视频数据和指令音频;
物体特征矩阵提取模块,用于使用已训练实例分割模型从所述视频数据提取物体特征矩阵;
粗颗粒度指令特征矩阵提取模块,用于使用已训练语音模型从所述指令音频提取粗颗粒度指令特征矩阵;
融合特征生成模块,用于对所述物体特征矩阵和所述粗颗粒度指令矩阵进行拼接,生成融合特征;
细颗粒度指令组输出模块,用于将所述融合特征输入到已训练推理分类模型,输出细颗粒度指令组;
所述已训练推理分类模型包括已训练门控循环单元网络和已训练分类模型,所述细颗粒度指令组输出模块包括:联合特征生成子模块,用于将所述融合特征输入到预置全连接层,生成动作‑物体联合特征;
目标特征生成子模块,用于将所述动作‑物体联合特征输入到所述已训练门控循环单元网络,得到目标特征;
指令组类别确定子模块,用于将目标特征输入到所述已训练分类模型,确定与所述目标特征对应的指令组类别;
细颗粒度指令组输出子模块,用于输出与所述指令组类别对应的细颗粒度指令组。
6.根据权利要求5所述的装置,其特征在于,所述物体特征矩阵提取模块包括:视频帧提取子模块,用于从所述视频数据中提取多个视频帧;
目标物体特征确定子模块,用于将每个所述视频帧输入到已训练实例分割模型,确定目标物体特征;
物体特征矩阵生成子模块,用于将所述目标物体特征输入到预置全连接层,生成物体特征矩阵。
7.根据权利要求5所述的装置,其特征在于,所述已训练语音模型包括一维卷积神经网络和双向长短期记忆网络,所述粗颗粒度指令特征矩阵提取模块包括:数据转换子模块,用于将所述指令音频转换为梅尔频率倒谱系数特征数据;
指令信息生成子模块,用于输入所述梅尔频率倒谱系数特征数据到所述一维卷积神经网络,得到与所述梅尔频率倒谱系数特征数据对应的指令信息;
粗颗粒度指令特征生成子模块,用于将所述指令信息输入到所述双向长短期记忆网络,得到粗颗粒度指令特征;
粗颗粒度指令特征矩阵生成子模块,用于将所述粗颗粒度指令特征输入到预置全连接层,生成粗颗粒度指令特征矩阵。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述装置还包括:样本数据获取模块,用于获取样本数据;所述样本数据包括已分类的视频数据和已分类的指令音频;
实例分割模型训练模块,用于采用所述已分类的视频数据对预置的未训练实例分割模型进行训练,得到已训练实例分割模型;
语音模型训练模块,用于采用所述已分类的指令音频对预置的未训练语音模型进行训练,得到已训练语音模型;
融合样本数据获取模块,用于获取融合样本数据;
推理分类模型训练模块,用于通过所述融合样本数据训练预置的未训练推理分类模型,得到已训练推理分类模型。