1.一种基于多模态特征融合的三维对象融合特征表示方法,其特征在于,步骤如下:步骤(1)、通过多视图神经网络处理多视图三维信息;
通过多视图神经网络处理多视图三维信息;通过多个不共享权重的独立的CNN,分别输入多视图信息,再通过Max‑pooling,将多个CNN的输出统一到一个输出上,追加判别器进行模型的分类;
首先将三维模型数据转化成多视图数据,具体方式是在三维模型的中间水平面上,绕三维模型一周均匀摆放12个摄像头,拍摄一组共12张图片作为三维模型的多视图表示;然后通过OpenCV或者Pillow图像处理工具将每张图片都调整成256x256像素大小,再进行随机的224x224大小的区块的裁切;将处理后的图像,分别输入多个CNN模型中,CNN模型的输入层接收这些数据,随后进行多层的卷积操作,即通过卷积后再卷积的形式,不断抽取特征;最后,多个CNN都输出相同尺寸的卷积特征,利用max‑pooling操作将这些特征进行统一,具体的方式是在多个CNN的输出结果上,滑动pooling窗口,每个窗口都取各自的最大值作为这个窗口的计算结果,获得最终的全局多视图特征,通过判别器实现三维模型的分类,判别器采用基于全连接层的非线性分类器,是一个多项式,但是每一项中间会增加非线性函数实现分类器的非线性;
步骤(2)、点云的特征提取网络;
基于经典的点云处理网络模型,对点云数据进行特征提,具体如下:设具有n个点的F维点云表示为 F=3并且每个点都在3D坐标中;首先通过3D空间变换网络计算仿射变换矩阵,仿射变换矩阵用于保持点云对几何变换不变;
然后采用EdgeConv作为基本层进行堆叠或循环应用于网络中;EdgeConv首先收集每个点的k近邻,然后通过卷积和最大池来提取每个点的局部边缘特征;
步骤(3)、网格数据的表示方法;
网格数据由多个元素组成,并且可以在它们之间定义连接,为简化网格数据组织,将面视为唯一的单元,并在两个面共享共同边缘时定义两个面之间的连接;将面部特征分为空间特征和结构特征,首先将网格数据的每一个网格面表示为“中心”,“顶点”,“法向量”和“邻接网格”四个属性,每个属性分别由1x3,1x9,1x3和1x3的向量进行表示;进行空间描述子和结构描述子的抽取;空间描述子为直接将“中心”向量乘以一个参数矩阵得到空间特征,结构描述子为通过“面旋转卷积”的形式进行特征抽取;所述的“面旋转卷积”,具体的计算方法是将“顶点”向量进行90度的旋转,旋转3次得到4个不同角度的表示,将4个不同角度的表示全部连接起来并乘以参数矩阵,然后通过pooling操作得到结构特征;获得空间描述子和结构描述子后,将其以及“法向量”和“邻接网格”属性表示在任意一个能够对齐的维度上进行连接,然后将连接后的投入MLP中输出全局特征;
步骤(4)、融合特征计算与输出;
首先取多视图和点云特征表示,他们分别记为分为原始模态特征A和用于融合的模态特征B;先将A和B做一个简单连接(concat)合成C,再将C投入MLP并结合归一化函数输出soft注意力掩模D;然后将原始模态特征A和soft注意力掩模D做矩阵乘法输出中间特征E,最后将E和原始模态特征A做乘法输出融合特征表示F’;将融合特征表示F’和网格特征表示G做一个简单连接(concat)合成H,再将H投入MLP并结合归一化函数输出soft注意力掩模I;
然后将融合特征表示F’和soft注意力掩模I做矩阵乘法输出中间特征J,最后将J和融合特征表示F’做乘法输出最终融合特征表示K。