1.一种基于双循环图的虚假评论检测方法,其特征在于,包括:(1)采用原始图过滤器计算原始评论数据的评论置信度和用户置信度,并对用户置信度进行筛选获得可靠用户,其中,评论置信度和用户置信度的计算为:评论置信度的计算:
评论v的置信度记为H(v),取值范围为(-1,1),其计算公式为:H(v)=|R(Γv)|An(v,Δt) (1)其中,An(v,Δt)表示在Δt时间内n条评论的评论一致性,Γv为评论v对应商店的id,R(Γv)表示评论v所评论商店的置信度;
用户r的评论置信度Hr为:
其中,nr为用户r的评论数, 表示用户r的第i条评论的置信度;
用户置信度的计算:
用户r的置信度记为T(r),取值范围为(-1,1),其计算公式为:评论置信度初始值为0,用户置信度的初始值为1,将原始评论数据中商店和用户作为横轴和纵轴,用户对商店的评分作为元素值,构建矩阵,利用上述公式(1)~(3)计算评论置信度和用户置信度;
对用户置信度进行筛选获得可靠用户包括:
将所有用户置信度以用户置信度-频数曲线呈现成用户置信度频度分布;
以用户置信度-频数曲线中靠近用户置信度最小取值的波谷对应的用户置信度作为第一个界点P1,以小于该第一个界点P1的所有用户置信度对应的用户作为可靠用户;
且以用户置信度-频数曲线中靠近用户置信度最大取值的波谷对应的用户置信度作为第二个界点P2,以大于该第二个界点P2的所有用户置信度对应的用户作为可靠用户;
(2)利用原始图过滤器计算可靠用户对应的评论数据的商店置信度;
(3)将原始图过滤器中的评论置信度更新为步骤(1)获得的评论置信度,利用原始图过滤器计算原始评论数据的用户置信度;
(4)以步骤(2)获得的商店置信度和步骤(3)获得的用户置信度作为初始值,构建加权图过滤器;
其中,构建的加权图过滤器为:
步骤(2)获得的商店置信度和步骤(3)获得的用户置信度作为初始值;
评论置信度Hr计算公式为:
其中, 为用户r的第i条评论的置信度,其计算为:H(v)=|R(Γv)|An(v,Δt) (5)其中,An(v,Δt)为在Δt时间内n条评论的评论一致性,Γv为评论v对应商店的id,R(Γv)表示评论v所评论商店的置信度;
用户置信度T(r)计算公式为:
商店置信度R(s)计算公式为:
其中, Times(τr,τmax)为衡量用户影响力的权重函数,其计算公式为:
其中,τr为用户r对商店s的评论次数,τmax为对商店s进行评论的所有用户中最大评论次数,Ψv表示用户对商店的具体评分,μ为用于衡量评分的积极性或消极性的阈值参数,T(Kv)表示发表评论v的用户Kv的置信度;
(5)利用加权图过滤器计算原始评论数据的商店置信度、用户置信度和评论置信度,根据评论置信度筛选获得虚假评论。
2.如权利要求1所述的基于双循环图的虚假评论检测方法,其特征在于,所述An(v,Δt)的计算为:其中,T(Ki)表示相似集Sv,a内用户置信度,T(Kj)表示非相似集Sv,d内用户置信度,对相似集Sv,a与非相似集Sv,d的划分有如下定义:Sv,a={i||Ψi-Ψj|<δ} (12)Sv,d=Sv\Sv,a (13)
其中,Sv为时间Δt内商店的所有评论集合, Γi表示评论id,|Ψi-Ψj|表示一条打分信息Ψi与周围的打分分值Ψj相差小于δ时被划分为相似集Sv,a,否则被划分为非相似集Sv,d,δ设置为1。
3.如权利要求1所述的基于双循环图的虚假评论检测方法,其特征在于,步骤(2)中,商店置信度初始值设为1,将可靠用户对应的评论数据按照以下公式计算商店置信度:其中,R(s)表示商店s的置信度, Us表示访问商店s的用户集合,Ψv表示用户对商店的具体评分,μ为用于衡量评分的积极性或消极性的阈值参数,T(Kv)表示发表评论v的用户Kv的置信度。
4.如权利要求1所述的基于双循环图的虚假评论检测方法,其特征在于,An(v,Δt)的计算公式为:其中,T(Ki)表示相似集Sv,a内用户置信度,T(Kj)表示非相似集Sv,d内用户置信度,对相似集Sv,a与非相似集Sv,d的划分有如下定义:Sv,a1={i||Ψi-Ψj|<δ} (18)其中,|Ψi-Ψj|表示一条打分信息Ψi与周围的打分分值Ψj的评分偏差,δ为评分相似阈值;
如果评分为4分的用户数大于评分为2分的用户数时:Sv,a2={i|Ψi=5} (19)
如果评分为4分的用户数小于评分为2分的用户数时:Sv,a2={i|Ψi=1} (20)
则:
Sv,a=Sv,a1∪Sv,a2 (21)Sv,d=Sv\Sv,a (22)。
5.如权利要求1或3 所述的基于双循环图的虚假评论检测方法,其特征在于,阈值参数μ的取值为3。
6.如权利要求1所述的基于双循环图的虚假评论检测方法,其特征在于,步骤(5)中:首先,利用加权图过滤器计算原始评论数据的商店置信度、用户置信度和评论置信度;
然后,对商店置信度、用户置信度和评论置信度分别进行排序;
最后,筛选排序靠后的一部分评论置信度对应的评论作为虚假评论。