1.一种互联网信息监控系统,其特征在于,包括:
数据获取模块,用于获取用户针对热点事件的评论数据;
预处理模块,用于对所述评论数据进行数据清洗和预处理以得到预处理后评论数据;
分词模块,用于对所述预处理后评论数据进行分词处理以得到评论词的序列;
评论词编码模块,用于将所述评论词的序列通过包含词嵌入层的语义编码器以得到多个评论词上下文语义特征向量;
多尺度卷积编码模块,用于将所述多个评论词上下文语义特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的多尺度卷积结构以得到评论数据片语粒度特征向量;
级联模块,用于将所述多个评论词上下文语义特征向量进行级联以得到评论数据词粒度特征向量;
融合模块,用于融合所述评论数据片语粒度特征向量和所述评论数据词粒度特征向量以得到分类特征向量;以及判断模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示用户针对热点事件的评价是积极的还是消极的。
2.根据权利要求1所述的互联网信息监控系统,其特征在于,所述评论词编码模块,包括:词向量转化单元,用于使用所述语义编码器的词嵌入层将所述评论词的序列中各个评论词映射成为多个评论词向量以获得评论词向量的序列;以及语义编码单元,用于使用所述包含词嵌入层的语义编码器对所述评论词向量的序列进行基于全局的上下文语义编码以得到多个评论词上下文语义特征向量。
3.根据权利要求2所述的互联网信息监控系统,其特征在于,所述多尺度卷积结构,包括:相互并行的第一卷积层和第二卷积层,以及,与所述第一卷积层和所述第二卷积层连接的多尺度级联层,其中,所述第一卷积层和所述第二卷积层使用具有不同尺度的一维卷积核。
4.根据权利要求3所述的互联网信息监控系统,其特征在于,所述多尺度卷积编码模块,包括:第一尺度提取单元,用于使用所述多尺度卷积结构的第一卷积层以如下第一卷积公式对所述一维特征向量进行一维卷积编码以得到第一尺度片语粒度特征向量;
其中,所述第一卷积公式为:
其中,a为第一卷积核在x方向上的宽度,F(a)为第一卷积核参数向量,G(x‑a)为与第一卷积核函数运算的局部向量矩阵,w为第一卷积核的尺寸,X表示所述一维特征向量,Cov1(X)为所述第一尺度片语粒度特征向量;
第二尺度提取单元,用于使用所述多尺度卷积结构的第二卷积层以如下第二卷积公式对所述一维特征向量进行一维卷积编码以得到第二尺度片语粒度特征向量;
其中,所述第二卷积公式为:
其中,b为第二卷积核在x方向上的宽度,F(b)为第二卷积核参数向量,G(x‑b)为与第二卷积核函数运算的局部向量矩阵,m为第二卷积核的尺寸,X表示所述一维特征向量,Cov2(X)为所述第二尺度片语粒度特征向量;以及多尺度级联单元,用于使用所述多尺度卷积结构的级联层对所述第一尺度片语粒度特征向量和所述第二尺度片语粒度特征向量进行级联以得到所述评论数据片语粒度特征向量。
5.根据权利要求4所述的互联网信息监控系统,其特征在于,所述级联模块,用于:以如下级联公式将所述多个评论词上下文语义特征向量进行级联以得到所述评论数据词粒度特征向量;
其中,所述级联公式为:
Ve=Concat[Va,Vb]
其中,Va,Vb表示所述多个评论词上下文语义特征向量,Concat[·]表示级联函数,Ve表示所述评论数据词粒度特征向量。
6.根据权利要求5所述的互联网信息监控系统,其特征在于,所述融合模块,包括:稀疏编码单元,用于对所述评论数据片语粒度特征向量和所述评论数据词粒度特征向量进行稀疏编码以得到第一稀疏特征向量和第二稀疏特征向量;
第一JS散度计算单元,用于计算所述第一稀疏特征向量相对于所述第二稀疏特征向量的第一JS散度;
第二JS散度计算单元,用于计算所述第二稀疏特征向量相对于所述第一稀疏特征向量的第二JS散度;
归一化单元,用于对所述第一JS散度和所述第二JS散度进行归一化处理以得到归一化第一JS散度和归一化第二JS散度;以及分类特征向量生成单元,用于以所述归一化第一JS散度和所述归一化第二JS散度作为权重,融合所述第一稀疏特征向量和所述第二稀疏特征向量以得到所述分类特征向量。
7.根据权利要求6所述的互联网信息监控系统,其特征在于,所述第一JS散度计算单元,用于:以如下第一JS散度公式计算所述第一稀疏特征向量相对于所述第二稀疏特征向量的所述第一JS散度;
其中,所述第一JS散度公式为:
其中,S1是所述第一稀疏特征向量,S2是所述第二稀疏特征向量,S是所述第一稀疏特征向量和所述第二稀疏特征向量的平均分布,KL表示KL散度,JSD1表示所述第一JS散度。
8.根据权利要求7所述的互联网信息监控系统,其特征在于,所述第二JS散度计算单元,用于:以如下第二JS散度公式计算所述第二稀疏特征向量相对于所述第一稀疏特征向量的所述第二JS散度;
其中,所述第二JS散度公式为:
其中,S1是所述第一稀疏特征向量,S2是所述第二稀疏特征向量,S是所述第一稀疏特征向量和所述第二稀疏特征向量的平均分布,KL表示KL散度,JSD2表示所述第二JS散度。
9.根据权利要求8所述的互联网信息监控系统,其特征在于,所述判断模块,包括:全连接编码单元,用于使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
10.一种互联网信息监控方法,其特征在于,包括:
获取用户针对热点事件的评论数据;
对所述评论数据进行数据清洗和预处理以得到预处理后评论数据;
对所述预处理后评论数据进行分词处理以得到评论词的序列;
将所述评论词的序列通过包含词嵌入层的语义编码器以得到多个评论词上下文语义特征向量;
将所述多个评论词上下文语义特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的多尺度卷积结构以得到评论数据片语粒度特征向量;
将所述多个评论词上下文语义特征向量进行级联以得到评论数据词粒度特征向量;
融合所述评论数据片语粒度特征向量和所述评论数据词粒度特征向量以得到分类特征向量;以及将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示用户针对热点事件的评价是积极的还是消极的。