1.基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,把秘密信息转换为秘密比特流,将秘密比特流嵌入网络模型生成的载体文本中,具体包括以下步骤:对文本进行预处理,包括提取训练文本的全局关键词和组关键词,将长文本划分为多个短序列,每一个短序列都对应一组组关键词,全局关键词即为所有组关键词的并集;
构建由编码网络、高斯采样以及解码网络构成的神经网络模型,将文本向量化;
利用编码网络分别获取全局关键词和长序列的特征,并融合全局关键词和长序列的特征获取全局特征表示进行融合;
利用高斯采样对编码网络中的全局特征表示进行高斯采样;
利用解码网络对高斯采样的采样结果进行解码,获取文本的条件概率分布;
选择条件概率最大的K个单词,使用哈夫曼编码对这K个单词进行编码,根据待嵌入的秘密比特流来选择与哈夫曼编码相对应的一个单词,完成文件的隐写。
2.根据权利要求1所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,获取全局关键词烦人特征,即提取文本中词‑词之间的上下文特征,采用结合双向门控循环单元和注意力机制来提取文本中词‑词之间的上下文特征,包括以下步骤:使用双向门控循环单元中的前向门控循环单元和后向门控循环单元获取文本的前向隐藏状态和后向隐藏状态;
将当前前向门控循环单元和后向门控循环单元获取的状态进行合并,并将合并后的状态输入注意力层;
在注意力层计算每个双向门控循环单元的隐藏层输出与整个文本表示向量的匹配得分占总体得分的比重,通过线性变换得出注意力层的输出。
3.根据权利要求2所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,使用双向门控循环单元对输入的向量进行处理包括:z′t=σ(Wz'·[ht‑1,xt]+bz')rt=σ(Wr·[ht‑1,xt]+br)nt=tanh(Wn·[rt*ht‑1,xt])ht=(1‑z′t)*ht‑1+z′t*nt其中,z′t为更新门;Wz'为更新门的训练权重;ht‑1为上一层的隐藏状态;xt为第t时刻输入双向门控循环单元的向量;bz'为更新门的偏置值;rt为重置门;Wr为重置门的训练权重;br为重置门的偏置值;nt为候选激活函数;Wn为候选激活函数的权重;ht为时间t的隐层输出结果;σ(x)为Sigmoid激活函数;h′t为隐藏层输出状态; 为前向隐藏状态; 为后向隐藏状态;其中 表示ht的前向隐层结果, 表示ht的后向隐层结果。
4.根据权利要求2所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,注意力层对隐藏层输出状态的处理包括:ut=tanh(Wattnh′t+battn)st=∑tatht
outputt=Wost+bo其中,Wattn、battn分别为注意力层的权重、偏置值;uattn表示随机初始化的注意力矩阵;
Wo、bo分别为输出层的权重系数、偏置值。
5.根据权利要求3所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,在提取长序列的特征时,获取每一个短句的向量表示,再通过双向GRU来获取短句‑短句之间的相关性特征 表示第t个短句st的隐层特征。
6.根据权利要求1所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,对编码网络中的全局特征进行高斯采样包括模型训练阶段和对实时数据进行操作的生成阶段,在训练阶段通过对全局关键词向量和全局关键词隐变量进行采样获得其近似的后验分布,对实时数据进行处理时通过对全局关键词向量采样获取其近似的先验分布。
7.根据权利要求6所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,解码网络对采样结果进行解码包括:组关键词隐变量解码,即通过对全局隐变量z进行采样,获得每一个从句生成的组关键词隐变量;
将解码得到的组关键词隐变量与全局隐变量进行特征融合,获得指导当前组从句生成的局部隐变量;
通过对每个组的局部隐变量进行特征解码,完成每一个组从句中单词的条件概率预测。
8.根据权利要求7所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,组关键词隐变量解码过程包括:在神经网络模型的每一层有一组关键词,以及该组关键词约束下的组从句,每一组关键词是输入神经网络的文本向量的子集;
通过对输入神经网络的文本向量采样,得到一个全局关键词隐变量z;通过对神经网络的文本向量和z进行采样来获取每一组关键词;
通过高斯采样获取先验分布或后验分布,选择每一层所对应的组关键词;
在每个时间步骤t,关键词解码器以神经网络的文本向量,全局关键词隐变量z和t时刻之前的分组为输入,计算出t时刻各输入项的概率,并将概率值超过阈值的作为t时刻分组的组关键词隐变量。
9.根据权利要求7所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,对每个组的局部隐变量进行特征解码,解码的目的是将采样的特征编码映射为词所对应的条件概率,包括:
其中,GRUs表示句子解码器的GRU单元; 是GRUg编码关键词结果g的最后一个隐层状态; 为每一个短句的局部隐变量;Ws为初始隐层向量的权重、bs为初始隐层向量的偏置值; 和 表示词‑词上下文关系的前向和后向的特征向量。
10.根据权利要求1所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,进行特征嵌入的过程包括:每一个时间步骤生成一个单词,第tw个时间步骤生成第tw个单词;
使用前tw‑1个生成单词的条件概率,基于先验概率或者后验概率的计算每个单词在第tw个时间步骤被选中的概率,并按照倒序排序;
n n
选择前2个单词,使用哈夫曼编码对前2个单词的条件概率进行编码;
根据待嵌入的秘密信息比特流B={b1,b2,...,bo}选择相应的单词作为秘密信息的载体单词,完成文本的隐写;
其中,bo表示秘密信息比特流中第o个比特位,o为比特流的长度;n为嵌入秘密信息的广度。