1.一种数字取证方法,其特征在于,所述方法包括:
对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;
基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;
计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;
基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标;
其中,计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量包括:计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;
在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;
将所述多个最大语义相似度值确定为所述语义相似度最大值向量;
其中,计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度包括:通过公式 计算
所述第i个特征词与所述第k个敏感词之间的语义相似度;
其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
2.根据权利要求1所述的方法,其特征在于,对待取证文本的文本内容进行预处理,得到多个主干词包括:使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
3.根据权利要求1所述的方法,其特征在于,基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标包括:计算所述语义相似度最大值向量中的所有语义相似度最大值的和,得到目标值;
将所述目标值与预设阈值进行比较,得到比较结果;
如果所述比较结果为所述目标值大于或等于所述预设阈值,则确定所述待取证文本为所述取证目标。
4.一种数字取证装置,其特征在于,所述装置包括:
预处理模块,用于对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;
获取模块,用于基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;
计算模块,用于计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;
确定模块,用于基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标;
其中,所述计算模块包括:
计算单元,用于计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;
查找单元,用于在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;
确定单元,用于将所述多个最大语义相似度值确定为所述语义相似度最大值向量;
其中,所述计算单元通过公式
计算所述第i个特征
词与所述第k个敏感词之间的语义相似度;
其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
5.根据权利要求4所述的装置,其特征在于,所述预处理模块包括:过滤单元,用于使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
6.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至3中任一所述方法。