1.一种基于多模态特征融合的视频目标行为异常检测方法,其特征在于,包括:通过部署于智慧城市的摄像头获取视频片段,并从所述视频片段中提取音频片段;
将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数,所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建;
以所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量;
将所述加权后第一特征向量的转置与所述第二特征向量进行向量相乘以获得分类特征矩阵;以及将所述分类特征矩阵通过分类器以获得分类结果,所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常;
其中,将所述视频片段和所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量,包括:所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量;以及所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量;
其中,计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数,包括:以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数;
其中,所述公式为:
2
其中V1表示所述第一特征向量,V2表示所述第二特征向量,||·||2表示向量的二范数的平方, 表示向量的按位置相减。
2.根据权利要求1所述的基于多模态特征融合的视频目标行为异常检测方法,其中,所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量,包括:所述第一卷积神经网络的各层在层的正向传递中对输入数据进行基于二维卷积核的卷积处理、沿特征矩阵的均值池化处理和激活处理以由所述第一卷积神经网络的最后一层输出所述第一特征向量,其中,所述第一卷积神经网络的第一层的输入数据为所述音频片段的波形图。
3.根据权利要求2所述的基于多模态特征融合的视频目标行为异常检测方法,其中,所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量,包括:所述第二卷积神经网络的各层在层的正向传递中对输入数据进行基于所述三维卷积核的卷积处理、沿特征矩阵的均值池化和激活处理以由所述第二卷积神经网络的最后一层输出所述第二特征向量,其中,所述第二卷积神经网络的第一层的输入为所述视频片段。
4.根据权利要求3所述的基于多模态特征融合的视频目标行为异常检测方法,其中,将所述分类特征矩阵通过分类器以获得分类结果,包括:所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果,其中,所述公式为:softmax{(Wn,Bn):…:(W1,B1)|Project(F)},其中Project(F)表示将所述分类特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。
5.一种基于多模态特征融合的视频目标行为异常检测系统,其特征在于,包括:片段数据获取单元,用于通过部署于智慧城市的摄像头获取视频片段,并从所述视频片段中提取音频片段;
编码单元,用于将所述片段数据获取单元获得的所述视频片段和所述片段数据获取单元获得的所述音频片段通过包含音频编码器和视频编码器的CLIP模型以由所述CLIP模型的音频编码器对所述音频片段进行处理以生成第一特征向量且由所述CLIP模型的视频编码器对所述视频片段进行处理以生成第二特征向量;
非刚性一致性因数计算单元,用于计算所述编码单元获得的所述第一特征向量与所述编码单元获得的所述第二特征向量之间的特征流形的非刚性一致性因数,所述特征流形的非刚性一致性因数基于所述第一特征向量与所述第二特征向量之间的差分向量的二范数与所述第二特征向量的二范数来构建;
加权单元,用于以所述非刚性一致性因数计算单元获得的所述特征流形的非刚性一致性因数对所述第一特征向量进行加权以获得加权后第一特征向量;
分类特征矩阵生成单元,用于将所述加权单元获得的所述加权后第一特征向量的转置与所述加权单元获得的所述第二特征向量进行向量相乘以获得分类特征矩阵;以及分类单元,用于将所述分类特征矩阵生成单元获得的所述分类特征矩阵通过分类器以获得分类结果,所述分类结果用于表示所述视频片段中的视频目标是否存在行为异常;
其中,所述编码单元,进一步用于:
所述音频编码器采用第一卷积神经网络对所述音频片段的波形图进行处理以生成所述第一特征向量;以及,所述视频编码器采用具有三维卷积核的第二卷积神经网络对所述视频片段进行处理以生成所述第二特征向量;
其中,所述非刚性一致性因数计算单元,进一步用于:
以如下公式来计算所述第一特征向量与所述第二特征向量之间的特征流形的非刚性一致性因数;
其中,所述公式为:
2
其中V1表示所述第一特征向量,V2表示所述第二特征向量,||·||2表示向量的二范数的平方。
6.根据权利要求5所述的基于多模态特征融合的视频目标行为异常检测系统,其中,所述分类单元,进一步用于:所述分类器以如下公式所述分类特征矩阵进行处理以生成所述分类结果,其中,所述公式为:softmax{(Wn,Bn):…:(W1,B1)|Project(F)},其中Project(F)表示将所述分类特征矩阵投影为向量,W1至Wn为各层全连接层的权重矩阵,B1至Bn表示各层全连接层的偏置矩阵。