1.一种基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,包括以下步骤:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。
2.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,对获取的语料进行预处理,具体为:包括文本清洗、结巴分词、去停用词,并利用正则表达式和停用词表过滤掉数据中无意义的内容,得到词典库。
3.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量,具体为:根据预处理完的语料的词频信息建立词典,对文档进行BOW编码;
输入LDA模型中,对文档特征降维,得到文档的主题分布和对应主题的词语分布,进而提取出文档的主题特征词;
将所述的主题特征词输入到Word2Vec模型中进行词向量训练,主题向量集合表示为:T=[T1,T2,…,TK]∈RK×a
式中,a为词向量的维度,K为主题数,Tk表示第k个主题的向量,RK×a表示一个行为主题数,列为词向量维数的矩阵。
分别对每篇文档的所有主题向量取平均,获取文档集合D的主题向量表示:式中,td表示第d篇文档的主题向量,RD×a表示一个行为文档数,列为词向量维数的矩阵。
4.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述对文本分词进行词向量训练,通过LSTM获取语义向量,具体为:将分词文本输入词嵌入层,对每一个词进行向量化表示;
将词向量按序列输入LSTM模型中进行特征提取:
ht=LSTM(xt),t∈[1,n]
式中,xt表示文档序列中第t个词的词向量输入,ht表示该篇文档的语义特征向量。
按上述方式对文档集合D进行语义编码,获取文档集合D的语义向量表示:式中,c为LSTM模型的输出向量维度,hd表示第d篇文档的语义向量,RD×c表示一个行为文档数,列为向量维数的矩阵。
5.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量,具体为:根据AI Lab开源词向量表示词汇,将预处理后的分词文本匹配词向量数据,分别把文档中匹配到的向量进行加权取平均,没有匹配到的词的向量判为0,获取文档集合D的词义特征向量表示:式中,zd表示第d篇文档的词义向量,RD×200表示一个行为文档数,列数为200的矩阵。
6.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示,具体为:将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接,构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V;
结合AI Lab开源词向量得到的词义向量,构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec;
文档集合D的向量化表示可描述为:
式中, 为拼接运算符。
7.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估,具体包括:将多粒度文本特征表示矩阵输入CNN中进行分类模型训练;
利用softmax分类器获取样本的预测标签;
式中,Sk表示输出向量S的第k个值,vk表示输入向量中的第k个值,vt表示输入向量中的所有值,T表示类别数量;
采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。
8.一种基于多粒度文本特征表示的微博用户兴趣识别系统,其特征在于,包括:预处理单元:用于对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;
文本向量获取单元:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;
向量融合单元:用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;
分类识别单元:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。