1.一种基于双向特征嵌入的深度学习模型去偏方法,其特征在于,包括:S1:获得带有多标签分类的文本数据集,筛选文本数据集中出现社会偏见的词语并标记作为敏感性样本集,将敏感性样本集划分为第一特权组样本集和第一非特权组样本集;
S2:构建双特征嵌入样本集,对第一特权组样本集中的部分数据进行特征提取得到特权组样本特征数据,同时对第一非特权组样本集中的部分数据进行特征提取得到非特权组样本特征数据;
利用特征嵌入损失函数,将特权组样本特征数据嵌入到第一非特权组样本集得到第二非特权组样本集以及将非特权组样本特征数据嵌入到第一特权组样本集得到第二特权组样本集,第二非特权组样本集和第二特权组样本集构建双特征嵌入样本集;
S3:搭建收入预测模型,所述深度学习模型包括6层全连接网络;
S4:利用双特征嵌入样本集,在训练时,以收入判断任务的损失loss_m1,和去社会偏见损失loss_m2组成的总损失loss为最终损失,其中,去社会偏见损失loss_m2为:loss_m2=|y(x'up)‑y(xup)|+|y(x'p)‑y(xp)|其中,x'up为第二非特权组样本集,xup为第一非特权组样本集,x'p为第二特权组样本集,xp第一特权组样本集,y()为收入预测模型;
S5:每训练一阶段,将收入预测模型输出的收入判断结果和对应的敏感性样本集通过均等差异指标函数进行测算,当均等差异指标函数计算结果满足阈值,则获得最终收入预测模型。
2.根据权利要求1所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,对所述的第一特权组样本集和第一非特权组样本集进行特征特征提取前,分别去除在第一特权组样本集和第一非特权组样本集中共有特征。
3.根据权利要求1所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,对第一特权组样本集中的部分数据进行特征提取得到特权组样本特征数据,同时对第一非特权组样本集中的部分样本进行特征提取得到非特权组样本特征数据的具体步骤为:将第一特权组样本集输入至卷积神经网络中,通过卷积神经网络中的卷积层提取特征得到特权组样本特征数据;
将第一非特权组样本集输入至卷积神经网络中,通过卷积神经网络中的卷积层提取特征得到非特权组样本特征数据。
4.根据权利要求1或3所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,所述的特征嵌入损失函数为特权组样本特征数据和非特权组样本特征数据的均方误差,如果特征嵌入损失函数未收敛则继续输入特权组样本特征数据和非特权组样本特征数据,如果特征嵌入损失函数收敛则完成嵌入,以得到双特征嵌入样本集。
5.根据权利要求4所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,将特权组样本特征数据嵌入到第一非特权组样本集的具体步骤为:将第一非特权组样本集输入至第一特征嵌入模型中得到第二非特权组样本集,所述第一特征嵌入模型为:其中,loss‑t为特征嵌入损失函数,xp为第一特权组样本集,ε为卷积层的步长,xup为第一非特权组样本集,x'up为第二非特权组样本集,直至特征嵌入损失函数loss‑t收敛得到第二非特权组样本集。
6.根据权利要求4所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,将非敏感性样本特征数据嵌入到第一特权组样本集得到第二特权组样本集的具体步骤为:将第一特权组样本集输入至第二特征嵌入模型中得到第二特权组样本集,所述第一特征嵌入模型为:
其中,x'p为第二特权组样本集,直至特征嵌入损失函数loss‑t收敛得到第二特权组样本集。
7.根据权利要求1所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,所述样本分类任务的损失loss‑m1为:其中,n为样本总容量大小,i为样本索引,代表收入预测值,y代表收入的实际值。
8.根据权利要求1所述的基于双向特征嵌入的深度学习模型去偏方法,其特征在于,所述的均等差异指标函数计算的指标Prmean_difference为:Prmean_difference=Pr(Y=1|D=unprivileged)‑Pr(Y=1|D=privileged)其中,D为敏感属性,unprivileged为敏感属性中的非特权组,privileged为敏感属性中的特权组,Pr()为敏感属性为非特权组或特权组的条件下预测为1的条件概率,通过计算在敏感属性为非特权组的条件下预测为1的条件概率减去在敏感属性为特权组的条件下预测为1的条件概率,如果计算结果为0,则完成收入预测模型构建。