1.一种基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,包括以下步骤:
(1)选择语音数据的语料库,将语音数据划分为语音训练集X和语音测试集Q后进行语音数据处理,并对训练语音识别模型Y进行训练和测试;
(2)选择文本数据的语料库,将文本数据划分为文本训练集N和文本测试集P后进行文本数据处理,并对训练文本情感分类模型M进行训练和测试;
(3)对于待检测的Deepfake视频,将其从视频中提取音频,然后把音频经过数据处理后输入到语音识别模型Y中,语音识别模型Y输出对应的文本,再将输出的文本经过数据处理后输入到文本情感分类模型M,得到与文本对应的情感;
(4)将待检测的Deepfake视频转换为图片帧,提取图片帧中的人脸部分,对人眼瞳孔的大小进行检测;
(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频;如果匹配,则判定是真视频。
2.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(1)中,语音数据的语料库采用CASIA汉语情感语料库,所述的语音数据处理包括:
对语音训练集X和语音测试集Q进行滤波去除噪声,然后对语音训练集X进行语音特征参数MFCC提取。
3.根据权利要求2所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(1)中,所述的语音识别模型Y采用百度开源的Deepspeech2模型,训练的损失函数采用连接主义时间分类算法CTC,CTCLoss的定义如下CTCLoss(f(x),T)=‑logP(T|f(x))其中,y=f(x)为输出字符的概率分布,T为对应的文本。
4.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(2)中,文本数据的语料库采用NLPCC2013的中文微博数据集,所述的文本数据处理包括:
对于语音训练集X和语音测试集Q中的文本数据,先把语料转化为词向量,然后采用Google的word2vec来训练词向量,训练好词向量后建立词语到词向量的映射,通过keras的Embedding函数对文本进行词向量编码。
5.根据权利要求4所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(2)中,所述的文本情感分类模型M采用卷积网络,卷积核大小为3×3,步长为1,在卷积层和最大池化层中加入了批量归一化,经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到GRU层中,经过GRU后再输入到全连接层,最采用softmax分类器进行分类。
6.根据权利要求5所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,文本情感分类模型M训练的损失函数loss采用交叉熵形式,公式如下:其中,M为类别的数量,y指示变量0或1,如果该类别和样本的类别相同就是1,否则是0,pc为观测样本属于类别c的预测概率。
7.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(4)的具体过程为:
用OpenCV将待检测的Deepfake视频转换为一帧一帧的图片;
用dlib工具提取图片中的人脸,然后对人眼的关键点进行检测,把人眼部分分割出来;
对人眼图片进行中值滤波,采用7×7的滤波模板,滤除正态分布的噪声;再对图像进行阈值处理,得到一张对比度不同的黑白图片;然后再对图片进行边缘检测;
对图片边缘检测后的边界信息进行freeman链码编码提取图像中的边缘,并根据边缘特征进行瞳孔边界的识别;
识别出瞳孔边界后,计算瞳孔的大小。
8.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,所述的freeman链码采用8连通链码。
9.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,采用霍夫圆拟合法进行瞳孔的拟合及其大小计算,具体为:把图像空间转换成参数空间,然后进行圆心检测,从圆心推导出圆的半径,从而完成对瞳孔大小的检测。