1.一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,包括以下步骤:
S1、遍历推特源文本语料C,过滤非文本内容得到推特文本T,然后进行分词,得到字符集S;
S2、对每一条推特文本分别统计词中的所含有的最大字符长Lc与最大词长Lw;
S3、对字符集S内的每一个字符随机初始化,构建字符向量表 Sl为字符数,Dc为向量维度;
S4、以词为单位构建字符矩阵Mc,矩阵大小为Lc×Dc,即S5、对字符矩阵Mc进行卷积操作和池化操作,得到每个词基于字符卷积的固定维度向量即固定维度的词向量
S6、由固定维度词向量 及其向量维度Dw组合成用于表示推特文本T的词矩阵Mw,其矩阵大小为Lw×Dw,即
S7、对词矩阵Mw进行卷积操作和池化操作,得到每条推特文本基于词卷积的固定维度向量 即固定维度的推特向量
S8、利用固定维度的推特向量 生成用于变分推理的均值μ和方差δ,然后在标准正太分布中采样得到采样结果ε,由Z=μ+εδ生成变分编码表示向量Z,其向量维度为Dt;
S9、对变分编码表示向量Z采用反卷积及采样池化操作,重构生成词向量矩阵M′w,对词矩阵M′w的每一词向量进行反卷积及采样操作,重构字符矩阵M′c;
S10、分别计算M′c与Mc的欧式距离,以及M′w与Mw的欧式距离,且计算变分编码表示向量Z与标准正太分布之间的散度值,再基于计算的欧式距离及散度值更新模型参数,实现模型对待表示推特文本数据的拟合,获得字符层级卷积变分自编码模型的参数,再基于编码器参数则可用于推特文本表示。
2.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:所述过滤非文本内容包括过滤掉标签、表情符号以及超链接。
3.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,所述字符向量的向量取值范围为[‑r,r],r的值可根据实际需要进行选择,默认设置为0.05,向量维度Dc=50。
4.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S4具体包括:若词中所包含的字符c∈S,则在Ct中查找该字符的向量,并按序填充字符矩阵Mc,若字符长度小于Lc,则在字符矩阵Mc两端进行内容为0的填充。
5.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S5具体包括:通过设置不同字符卷积过滤器窗口WFc的大小构建不同字符卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,从而形成多个卷积核,对每个卷积核进行字符卷积操作得到特征映射矩阵Mfc,在特征映射矩阵上进行k‑max池化操作,并对获得的池化后特征进行全连接操作得到每个词基于字符卷积的固定维度向量
6.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:在词矩阵Mw中,若词的长度小于Lw,则通过在词矩阵Mw两端进行内容为0的填充。
7.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S7具体包括:通过设置不同词卷积过滤器窗口WFw的大小构建不同词卷积过滤器,对于相同窗口大小的过滤器初始化为不同的值,形成多个卷积核,每个卷积核进行词卷积操作得到特征映射矩阵Mfw,在特征映射矩阵上进行k‑max池化操作,并进行全连接操作得到每条推特文本基于词卷积的固定维度向量
8.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S8具体包括:根据推特文本向量 分别利用前向神经网络层及 生成用于变分推理的均值μ和方差δ,其维度大小为Dt,其中Wμ、Wδ、bμ和bδ分别为网络模型参数,而α(·)为激活函数;然后在标准正太分布中采样得到ε,再由生成的均值μ和方差δ,由Z=μ+εδ生成潜在的编码向量Z,其维度大小为Dt。
9.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于:在步骤S9中,重构的词向量矩阵M′w,其矩阵大小与Mw相同,即Lw×Dw;重构的字符矩阵M′c,其矩阵大小与Mc相同,即Lc×Dc。
10.根据权利要求1所述的一种基于字符层级卷积变分自编码的推特文本表示方法,其特征在于,步骤S10具体包括:计算M′c与Mc的欧式距离L1,以及M′w与Mw的欧式距离L2,且计算变分编码表示向量Z与标准正太分布之间的散度值H,以L1、L2和H作为模型编码损失,利用反向传播算法更新模型参数使其收敛并小于设定的训练阈值,通过模型参数优化实现对待表示推特文本数据的拟合,进而获得字符层级卷积变分自编码模型在语料上学习的参数,在获得这些模型参数后,即可利用模型的编码部分用于表示推特文本。