1.基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,把秘密信息转换为秘密比特流,将秘密比特流嵌入网络模型生成的载体文本中,具体包括以下步骤:对文本进行预处理,包括提取训练文本的全局关键词和组关键词,将长文本划分为多个短序列,每一个短序列都对应一组组关键词,全局关键词即为所有组关键词的并集;
获取全局关键词特征,即提取文本中词-词之间的上下文特征,采用结合双向门控循环单元和注意力机制来提取文本中词-词之间的上下文特征,包括以下步骤:使用双向门控循环单元中的前向门控循环单元和后向门控循环单元获取文本的前向隐藏状态和后向隐藏状态;使用双向门控循环单元对输入的向量进行处理包括:z'
r
n
h
其中,z
将当前前向门控循环单元和后向门控循环单元获取的状态进行合并,并将合并后的状态输入注意力层;
在注意力层计算每个双向门控循环单元的隐藏层输出与整个文本表示向量的匹配得分占总体得分的比重,通过线性变换得出注意力层的输出;注意力层对隐藏层输出状态的处理包括:u
s
output
其中,W
在提取长序列的特征时,获取每一个短句的向量表示,再通过双向GRU来获取短句-短句之间的相关性特征构建由编码网络、高斯采样以及解码网络构成的神经网络模型,将文本向量化;
利用编码网络分别获取全局关键词和长序列的特征,并融合全局关键词和长序列的特征获取全局特征表示进行融合;
利用高斯采样对编码网络中的全局特征表示进行高斯采样,包括模型训练阶段和对实时数据进行操作的生成阶段,在训练阶段通过对全局关键词向量和全局关键词隐变量进行采样获得其近似的后验分布,对实时数据进行处理时通过对全局关键词向量采样获取其近似的先验分布;
利用解码网络对高斯采样的采样结果进行解码,获取文本的条件概率分布;解码网络对采样结果进行解码包括:组关键词隐变量解码,即通过对全局隐变量z进行采样,获得每一个从句生成的组关键词隐变量,包括:在神经网络模型的每一层有一组关键词,以及该组关键词约束下的组从句,每一组关键词是输入神经网络的文本向量的子集;
通过对输入神经网络的文本向量采样,得到一个全局关键词隐变量z;通过对神经网络的文本向量和z进行采样来获取每一组关键词;
通过高斯采样获取先验分布或后验分布,选择每一层所对应的组关键词;
在每个时间步骤t,关键词解码器以神经网络的文本向量,全局关键词隐变量z和t时刻之前的分组为输入,计算出t时刻各输入项的概率,并将概率值超过阈值的作为t时刻分组的组关键词隐变量;
将解码得到的组关键词隐变量与全局隐变量进行特征融合,获得指导当前组从句生成的局部隐变量;
通过对每个组的局部隐变量进行特征解码,完成每一个组从句中单词的条件概率预测,包括:其中,GRU
选择条件概率最大的K个单词,使用哈夫曼编码对这K个单词进行编码,根据待嵌入的秘密比特流来选择与哈夫曼编码相对应的一个单词,完成文件的隐写。
2.根据权利要求1所述的基于变分自动编码器的数字媒体保护文本隐写方法,其特征在于,进行特征嵌入的过程包括:每一个时间步骤生成一个单词,第t
使用前t
选择前2
根据待嵌入的秘密信息比特流B={b
其中,b