欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020108957789
申请人: 华侨大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,包括以下步骤:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;

从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;

对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;

将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。

2.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,对获取的语料进行预处理,具体为:包括文本清洗、结巴分词、去停用词,并利用正则表达式和停用词表过滤掉数据中无意义的内容,得到词典库。

3.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量,具体为:根据预处理完的语料的词频信息建立词典,对文档进行BOW编码;

输入LDA模型中,对文档特征降维,得到文档的主题分布和对应主题的词语分布,进而提取出文档的主题特征词;

将所述的主题特征词输入到Word2Vec模型中进行词向量训练,主题向量集合表示为:T=[T1,T2,…,TK]∈RK×a

式中,a为词向量的维度,K为主题数,Tk表示第k个主题的向量,RK×a表示一个行为主题数,列为词向量维数的矩阵。

分别对每篇文档的所有主题向量取平均,获取文档集合D的主题向量表示:式中,td表示第d篇文档的主题向量,RD×a表示一个行为文档数,列为词向量维数的矩阵。

4.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述对文本分词进行词向量训练,通过LSTM获取语义向量,具体为:将分词文本输入词嵌入层,对每一个词进行向量化表示;

将词向量按序列输入LSTM模型中进行特征提取:

ht=LSTM(xt),t∈[1,n]

式中,xt表示文档序列中第t个词的词向量输入,ht表示该篇文档的语义特征向量。

按上述方式对文档集合D进行语义编码,获取文档集合D的语义向量表示:式中,c为LSTM模型的输出向量维度,hd表示第d篇文档的语义向量,RD×c表示一个行为文档数,列为向量维数的矩阵。

5.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量,具体为:根据AI Lab开源词向量表示词汇,将预处理后的分词文本匹配词向量数据,分别把文档中匹配到的向量进行加权取平均,没有匹配到的词的向量判为0,获取文档集合D的词义特征向量表示:式中,zd表示第d篇文档的词义向量,RD×200表示一个行为文档数,列数为200的矩阵。

6.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示,具体为:将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接,构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V;

结合AI Lab开源词向量得到的词义向量,构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec;

文档集合D的向量化表示可描述为:

式中, 为拼接运算符。

7.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法,其特征在于,所述将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估,具体包括:将多粒度文本特征表示矩阵输入CNN中进行分类模型训练;

利用softmax分类器获取样本的预测标签;

式中,Sk表示输出向量S的第k个值,vk表示输入向量中的第k个值,vt表示输入向量中的所有值,T表示类别数量;

采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。

8.一种基于多粒度文本特征表示的微博用户兴趣识别系统,其特征在于,包括:预处理单元:用于对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;

文本向量获取单元:从主题层、词序层和词汇层三个方面构造文本向量:利用LDA模型提取微博内容主题,通过Word2Vec训练生成主题向量;对文本分词进行词向量训练,通过LSTM获取语义向量;根据AI Lab开源词向量,扩展文本的词汇信息以及完善词语间的关系,获取词义向量;

向量融合单元:用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;

分类识别单元:将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。