欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020115058439
申请人: 东北林业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于多维评论表示的虚假评论检测方法,其特征在于:所述的检测方法包括以下步骤:

步骤1、提取细粒度方面词集:

首先,对评论语句进行预处理,提取评论语句中词性为名词且词频大于词频阈值的所有单词构成细粒度方面词集1;

然后,将评论中所包含的细粒度方面词视为当前评论句子中的主题,采用LDA主题挖掘模型结合主题困惑度计算对已有的评论集进行细粒度方面词的提取,得到细粒度方面词集

2;

最后,将得到的细粒度方面词集1和细粒度方面词集2进行去重合并,得到最终的细粒度方面词集

步骤2、构建词级融合模型:

通过用户ID信息、产品ID信息和细粒度方面词分别与评论文本中的单词基于注意力机制进行计算,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征;

步骤3、构建句级交互模型:

步骤3.1、利用双向LSTM+max‑pooling层作为基础模型,获取评论句子表示h:步骤3.2、根据词级融合模型输出的用户级相关特征表示vuc、产品级相关特征表示vpc和细粒度方面级相关特征表示vaspect得到用户句子表示U、产品句子表示P以及细粒度方面句子表示A;

步骤3.3、将用户句子表示U与产品句子表示P拼接在一起生成用户‑产品级句子表示,将细粒度方面句子表示A作为约束门,分别对评论句子表示h与用户‑产品级句子表示UP传向下一层的信息进行约束,并将细粒度方面句子表示A分别融入包含丰富上下文信息h与用户‑产品知识的评论表示UP′中,基于注意力机制计算包含丰富上下文信息h与用户‑产品知识的评论表示UP′之间的交互影响,并获得最终的评论表示Fr;

步骤4、构建分类模型:

对句级交互模型输出的最终的评论表示Fr进行分类,判断评论是虚假评论还是真实评论。

2.根据权利要求1所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,对评论语句进行预处理的方式为:利用语法和形态分析工具对分词后的评论语句进行处理。

3.根据权利要求2所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤1中,获得细粒度方面词集2的具体步骤如下:对评论语料进行语法和形态分析,然后利用语法和形态分析工具对分词后的评论语句进行预处理,通过LDA主题挖掘模型对预处理之后的评论集进行建模,采用困惑度最小时的主题数来确定每个评论集中的主题数,将确定的所有主题下的所有词全部进行整合,从而得到细粒度方面词集2。

4.根据权利要求3所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤2中,获取用户级相关特征、产品级相关特征和细粒度方面级相关特征具体过程如下:设定单词相关域d,根据每一个用户的ID信息在其所发表的评论文本的(wi′‑d,wi′+d)基于注意力机制进行计算,从评论文本的单词中获取用户级相关特征表示vuc,具体计算过程如公式(1);

其中,X是(wi′‑d,wi′+d)的词向量,i′∈[0,m];αi是整个句子中用户相关文本隐含模式重要程度的得分函数,W1和Wu是转换矩阵;u=[u1,u2,...,ui,...,un]是词向量与用户词向量加和之后进行tanh激活函数转化的一个矩阵,Uc矩阵是将用户Userc的ID的词向量进行复制

2d+1倍的矩阵;

确定产品级相关特征表示vpc与确定用户级相关特征表示vuc的方式相同;

对于评论Sl,判定其是否包含细粒度方面词,使用Stanford的NLP库工具将Sl中的每一个词wi′,i′∈[0,m],进行词形还原,并与细粒度方面词集 进行对比,若 基于公式(2)进行计算,获取在虚假评论中细粒度方面级相关特征表示νaspect,vaspect=βtXt

βt=softmax(apt)            (2)apt=tanh(XtW3+AtWa)其中,Xt为wi′的词向量,At为评论Sl中所包含的细粒度方面词的词向量,βt为评论Sl中细粒度方面词的重要程度得分函数。

5.根据权利要求4所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.1中获取评论句子表示h的具体过程如下:首先对评论集S={S1,S2,...,Sl,...,SL}中的原始评论进行预处理,然后将预处理后的句子向量Sl作为模型的输入,将双向LSTM模型的前向输出向量与后向输出向量拼接得到文本语义特征S′l,双向LSTM模型即Bi‑LSTM;最后,将双向LSTM模型的输出S′l进行最大池化操作,得到评论句子表示h:

(l*m)×D

其中,Es∈R 。

6.根据权利要求5所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.1中,对原始评论句子进行预处理的方式为:将句子中的缩略词进行替换并去掉句子中的标点符号。

7.根据权利要求6所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.2中,获取用户句子表示、产品句子表示和细粒度方面句子表示的具体过程如下:将每个用户级相关特征表示vuc分别与对应的评论Sl中wi′的表示进行拼接得到每个用户相关词表示,然后将所有的用户相关词表示拼接在一起得到用户级句矩阵选出当前句子中含有最多信息的特征将其转化为用户相关级句表征

Su=tanh(VuWv+b)       (4)

2D×D

其中,Wv∈R 为转换矩阵,Su是对Vu的一个激活转换过程;

将所有的用户相关级句子表示进行堆叠得到用户句子表示,用户句子表示l×D

中包含了用户相关的信息,U∈R ;

分别根据vpc和vaspect得到包含产品信息的产品句子表示 和包含细粒度方面词的细粒度方面句子表示 具体过程与确定用户句子表示U过程l×D

相同,其中A∈R 。

8.根据权利要求7所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤3.3中,获得最终的评论表示Fr具体计算过程如下:如公式(5)所示,对UP和h进行线性转换,将细粒度方面句子表示A看作约束门,约束与 各自传向下一层的信息,将A融入UP′和h′之中,

1×D

其中, A’=sigmoid(AW3+b3)∈R ;

如公式(6)和公式(7)所示,利用softmax层将UP′与h′之间的相关分数归一化,得到各自的注意力权重 和

其中, 和 为转换矩阵;

1×D

如公式(8)所示,将UP′,h′与各自的权重相乘得到加权后的表示UPf∈R 和如公式(9)所示,将UPf,hf拼接起来作为最终的评论表示Fr,Fr=UPfWf1+hfWf2      (9)其中, 和 为转换矩阵。

9.根据权利要求8所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述的步骤4的过程包括以下步骤:

将句级交互模型输出的最终的评论表示Fr作为虚假评论识别的特征输入非线性层进行转化,

y=tanh(FrWr)            (10)其中,Wr为转换矩阵,ci是预测的类别,n0是分类的种类,y是Fr经过tanh函数激活转换之后的矩阵,θ代表模型中的参数;

最后使用softmax层进行分类进行确定评论的虚假性。

10.根据权利要求1至9之一所述的基于多维评论表示的虚假评论检测方法,其特征在于:所述方法还包括优化MIANA模型的目标函数的步骤,具体过程包括以下步骤:将用户、评论和产品作为三元组信息,基于TransD算法对三元组之间的关系进行知识表示,首先,将不同的实体属性映射到不同的矩阵,如公式(11)所示,构造两个投影矩阵Mru和Mrp,将头实体用户和尾实体产品从实体空间映射到关系空间;

T D×D

Mru=meandim=1(U′) F′r+IT D×D

Mrp=meandim=1(P′) F′r+I     (11)D×D

其中,U′代表U的投影向量,P′代表P的投影向量,F′r代表Fr,的投影向量,I 为单位矩阵;

然后确定头实体用户与尾实体产品在关系空间的距离,由公式(12)进行计算:最后,对尾实体产品进行负采样,得到负采样的距离l(u,p)′,将lj(u,p)和lj(u,p)′之间的差值Lj(u,p)作为三元组关系的loss,采用相似度损失MarginRankingLoss进行优化,将L(u,p)作为MIANA模型的正则化项,对MIANA模型的目标函数进行优化;

在模型训练过程中,训练目标是最小化优化后的交叉熵损失,如公式(13);

其中,λ为超参数。