1.一种基于大数据的信息处理方法,其特征在于,包括:步骤1,利用爬虫软件收集文本数据,经过预处理得到待处理文本;
步骤2,将所述待处理文本输入敏感词检测模型,得到第一敏感词检测结果;其中,所述敏感词检测模型包括编码器和解码器,所述编码器由双向长短时记忆网络构成,所述解码器由循环神经网络构成;
步骤3,将所述待处理文本与敏感词库匹配,得到第二敏感词检测结果;所述敏感词库中包含敏感词和敏感字符;
步骤4,基于所述第一敏感词检测结果和所述第二敏感词检测结果,分别构建第一敏感词矩阵和第二敏感词矩阵;
步骤5,将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配,得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合;
步骤6,将所述第一敏感词集合确定为所述待处理文本中的敏感词;
步骤7,计算所述第二敏感词集合中任一词的成词率,根据所述成词率得到该词的敏感度;
步骤8,将所述敏感度大于预设阈值的任一词确定为所述待处理文本中的敏感词,并作为未登录词加入所述敏感词库;
步骤9,将所述敏感度小于等于预设阈值的任一词交由人工复查,确定所述待处理文本中的敏感词。
2.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,所述步骤1,利用爬虫软件收集文本数据,经过预处理得到待处理文本,包括:所述文本数据中包含字母、文字和表情符号;
将所述表情符号转换为表情文本;其中,所述表情文本包括符号、文字和/或字母的组合;
所述字母、所述文字和所述表情文本作为待处理文本。
3.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,所述步骤2,将所述待处理文本输入敏感词检测模型,得到第一敏感词检测结果,包括:获得所述待处理文本的向量化表示;
将所述向量化表示输入所述双向长短时记忆网络进行编码,得到编码向量;
将所述编码向量输入循环神经网络进行解码,得到第一敏感词检测结果。
4.根据权利要求2所述的基于大数据的信息处理方法,其特征在于,所述步骤3,将所述待处理文本与敏感词库匹配,得到第二敏感词检测结果,包括:将所述待处理文本进行分词,获得分词集合;其中,所述表情文本的符号、文字和/或字母的组合作为所述分词集合中的一个分词;
将所述分词集合中任一分词与所述敏感词库中任一词匹配,得到匹配结果;
根据所述匹配结果,得到第二敏感词检测结果。
5.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,所述步骤5,将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配,得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合,包括:将所述第一敏感词矩阵和所述第二敏感词矩阵输入词语对齐模型中,得到正交变换矩阵;
根据所述正交变换矩阵对齐所述第一敏感词矩阵和所述第二敏感词矩阵,得到词语匹配结果;
将匹配成功的词语作为第一敏感词集合;
将匹配失败的词语作为第二敏感词集合。
6.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,所述步骤7,计算所述第二敏感词集合中任一词的成词率,根据所述成词率得到该词的敏感度,包括:计算所述第二敏感词集合中任一词相对于所述待处理文本的TF‑IDF值;
将所述TF‑IDF值作为该词的成词率。
7.根据权利要求6所述的基于大数据的信息处理方法,其特征在于,所述步骤7,计算所述第二敏感词集合中任一词的成词率,根据所述成词率得到该词的敏感度,还包括:获得所述第二敏感词集合中任一词的义原;
分别将该词和该词的义原与所述敏感词库匹配,得到对应的词语权重值和义原权重值;
根据以下公式计算该词的敏感度:
其中,Fi表示第i个词的敏感度,M表示第二敏感词集合中的词语数量,ki表示第i个词的成词率,wi表示第i个词的权重值, 中N表示第i个词共有N个义原,qi,j表示第i个词的第j个义原的权重值。
8.根据权利要求1所述的基于大数据的信息处理方法,其特征在于,该方法还包括:对待处理文本中的敏感词进行标记和汇总;
可视化显示敏感词、标记和汇总信息。
9.一种基于大数据的信息处理系统,其特征在于,包括:文本处理模块,用于利用爬虫软件收集文本数据,经过预处理得到待处理文本;
第一敏感词检测模块,用于将所述待处理文本输入敏感词检测模型,得到第一敏感词检测结果;其中,所述敏感词检测模型包括编码器和解码器,所述编码器由双向长短时记忆网络构成,所述解码器由循环神经网络构成;
第二敏感词检测模块,用于将所述待处理文本与敏感词库匹配,得到第二敏感词检测结果;所述敏感词库中包含敏感词和敏感字符;
矩阵构建模块,用于基于所述第一敏感词检测结果和所述第二敏感词检测结果,分别构建第一敏感词矩阵和第二敏感词矩阵;
匹配模块,用于将所述第一敏感词矩阵和所述第二敏感词矩阵进行匹配,得到匹配成功的第一敏感词集合和匹配失败的第二敏感词集合;
敏感词确定模块,用于将所述第一敏感词集合确定为所述待处理文本中的敏感词;
计算所述第二敏感词集合中任一词的成词率,根据所述成词率得到该词的敏感度;
将所述敏感度大于预设阈值的任一词确定为所述待处理文本中的敏感词,并作为未登录词加入所述敏感词库;将所述敏感度小于等于预设阈值的任一词交由人工复查。
10.根据权利要求9所述的基于大数据的信息处理系统,其特征在于,该系统还包括可视化显示模块,用于对待处理文本中的敏感词进行标记和汇总;可视化显示敏感词、标记和汇总信息。