知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

￥38400

专利号： 2020108957789

申请人：华侨大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，包括以下步骤：对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

从主题层、词序层和词汇层三个方面构造文本向量：利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量；对文本分词进行词向量训练，通过LSTM获取语义向量；根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。

2.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，对获取的语料进行预处理，具体为：包括文本清洗、结巴分词、去停用词，并利用正则表达式和停用词表过滤掉数据中无意义的内容，得到词典库。

3.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，所述利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量，具体为：根据预处理完的语料的词频信息建立词典，对文档进行BOW编码；

输入LDA模型中，对文档特征降维，得到文档的主题分布和对应主题的词语分布，进而提取出文档的主题特征词；

将所述的主题特征词输入到Word2Vec模型中进行词向量训练，主题向量集合表示为：T＝[T1,T2,…,TK]∈RK×a

式中，a为词向量的维度，K为主题数，Tk表示第k个主题的向量，RK×a表示一个行为主题数，列为词向量维数的矩阵。

分别对每篇文档的所有主题向量取平均，获取文档集合D的主题向量表示：式中，td表示第d篇文档的主题向量，RD×a表示一个行为文档数，列为词向量维数的矩阵。

4.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，所述对文本分词进行词向量训练，通过LSTM获取语义向量，具体为：将分词文本输入词嵌入层，对每一个词进行向量化表示；

将词向量按序列输入LSTM模型中进行特征提取：

ht＝LSTM(xt)，t∈[1,n]

式中，xt表示文档序列中第t个词的词向量输入，ht表示该篇文档的语义特征向量。

按上述方式对文档集合D进行语义编码，获取文档集合D的语义向量表示：式中，c为LSTM模型的输出向量维度，hd表示第d篇文档的语义向量，RD×c表示一个行为文档数，列为向量维数的矩阵。

5.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，所述根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量，具体为：根据AI Lab开源词向量表示词汇，将预处理后的分词文本匹配词向量数据，分别把文档中匹配到的向量进行加权取平均，没有匹配到的词的向量判为0，获取文档集合D的词义特征向量表示：式中，zd表示第d篇文档的词义向量，RD×200表示一个行为文档数，列数为200的矩阵。

6.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示，具体为：将LDA结合Word2Vec提取的主题向量与LSTM提取的语义向量拼接，构建包含文档主题抽象描述和词序语义表达的文本特征表示模型LSTM_LDA_W2V；

结合AI Lab开源词向量得到的词义向量，构建包含词粒度和语义粒度的文本特征表示模型ALL2Vec；

文档集合D的向量化表示可描述为：

式中，为拼接运算符。

7.根据权利要求1所述的基于多粒度文本特征表示的微博用户兴趣识别方法，其特征在于，所述将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估，具体包括：将多粒度文本特征表示矩阵输入CNN中进行分类模型训练；

利用softmax分类器获取样本的预测标签；

式中，Sk表示输出向量S的第k个值，vk表示输入向量中的第k个值，vt表示输入向量中的所有值，T表示类别数量；

采用文本分类问题评价指标准确率、精准率、召回率、F1值、宏平均F1以及权平均F1进行效果评估。

8.一种基于多粒度文本特征表示的微博用户兴趣识别系统，其特征在于，包括：预处理单元：用于对获取的语料进行预处理，包括文本清洗、分词、去停用词和数据过滤；

文本向量获取单元：从主题层、词序层和词汇层三个方面构造文本向量：利用LDA模型提取微博内容主题，通过Word2Vec训练生成主题向量；对文本分词进行词向量训练，通过LSTM获取语义向量；根据AI Lab开源词向量，扩展文本的词汇信息以及完善词语间的关系，获取词义向量；

向量融合单元：用于对所述主题向量、语义向量和词义向量按顺序进行拼接融合，得到多粒度的文本特征表示；

分类识别单元：将多粒度的文本特征表示输入CNN模型中进行训练分类，得到微博用户兴趣识别的结果，并根据文本分类问题的评价指标进行效果评估。