知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种大规模人脸数据集的双阶段噪声清洗方法

￥38400

专利号： 2021110618636

申请人：西南交通大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种大规模人脸数据集的双阶段噪声清洗方法，其特征在于，包括如下步骤：S1、构建初始人脸数据集D1；

S2、检测数据集D1中的闭集噪声样本及对应的真实类别，输出含有闭集噪声的闭集噪声list文件；

S3、完成闭集噪声的重利用，生成数据集D2；

S4、将数据集D2作为输入继续进行训练，输出含有开集噪声的开集噪声list文件；

S5、根据步骤S4中的开集噪声list文件将数据集D2中的开集噪声进行删除，最终生成清洗后的干净数据集；

所述步骤S2中检测数据集D1中的闭集噪声样本及对应的真实类别具体是：将数据集D1输入到ResNet50网络中并进行训练，利用BoundaryF1 Loss函数对闭集噪声进行检测；

所述步骤S3中的完成闭集噪声的重利用，生成数据集D2，具体是：根据步骤S2输出的闭集噪声list文件，在数据集D1中将闭集噪声样本移动至对应的类别目录内，完成闭集噪声的重利用，并生成数据集D2；

所述步骤S4中输出含有开集噪声的开集噪声list文件具体是：将数据集D2输入到ResNet50网络中继续进行训练，使用NoiseDropLoss损失函数训练,训练过程中保存下每个样本的特征层与权重中心层的向量积，令样本所属类对应的向量值为cosθ，使用一个固定大小的队列不断的保存最新的cosθ以及丢弃最后的cosθ，随着训练的进行，保存下最终的队列，通过高斯混合模型拟合这组数据，并将子模型的个数设为3，得到三个高斯分布的参数，将第二个高斯分布的均值作为判断的阈值，低于该阈值的样本视为开集噪声样本，输出为开集噪声list文件；

所述的BoundaryF1 Loss函数公式如下：where if max{cos(θl+m)for all l≠yi}‑cos(θyi)>0∶yi＝l；

其中，N表示一个批次中样本的数量，i表示一个批次内的第i个样本，yi和j均表示某个样本标签的类别，且yi与该第i个样本的标签对应，n表示训练集的类别总数，s为缩放因子，l代表代表所有和i样本不同的类，m为惩罚项，θyi表示第i个样本的特征向量与第yi类的类中心特征向量之间的夹角；θj表示第i个样本的特征向量与第j类的类中心特征向量之间的夹角，在归一化后的超球面上体现为测地距离；

所述NoiseDropLoss损失函数如下：其中，L代表一个批次样本的损失函数，T是一个调制函数，基于d进行判断，对不同的样本分配不同的值。

2.根据权利要求1所述的大规模人脸数据集的双阶段噪声清洗方法，其特征在于：所述步骤S1的初始人脸数据集D1是已经标注标签、进行了人脸的检测和对齐后的数据集。

3.根据权利要求1所述的大规模人脸数据集的双阶段噪声清洗方法，其特征在于：所述的高斯混合模型的概率函数如下：

其中，x代表一次观测数据，θ代表模型的所有参数，k代表第k个子模型，K代表子模型的个数，αk代表观测数据属于第k个子模型的概率，φ(x|θk)代表第k个子模型的高斯分布密度函数。