1.一种基于强化学习的虚假评分检测方法,其特征在于,该方法基于Q网络,包括以下步骤:定义买家评分状态向量st,st由四元组构成,反映了买家的状态特征:其中, 表示买家自身的内在属性, Fit表示买家所处外部环境的特征;
定义买家动作向量at={0,1},买家的动作向量包括两个状态:对于买家,诚实还是撒谎;对于平台,评分是真、还是假,对应的状态值分别为1和0;
定义买家动作的奖励函数rt,如式(4)所示,
C为大于0小于1的常数,被称为奖励参数;
交易买家的交易经验组成平台交易全集D,在数据集D中使用DQN的方法学习买家的评分行为,从而预测买家评分的真或假,实现虚假评分检测;
在DQN的Q网络中,策略和最优状态-动作值函数Q*(s,a)的计算式为(5)所示,其中,其中πε(s)是ε贪心策略,函数Q(s,a;θ)是一个被称之为Q网络的神经网络,θ是它的权重参数,当Q网络迭代学习的次数足够多时,采用函数Q(s,a;θ)近似计算最优状态-动作值函数,即Q(s,a;θ)≈Q*(s,a),Q网络通过每次迭代i时最小化损失函数序列Li(θi)来训练,Li(θi)由式(7)计算,Li(θi)=Es,a~ρ(·)[(yi-Q(s,a;θi))2] (7)其中yi=Es'~ε[r+γmaxa'Q(s',a';θi-1)|s,a]是迭代i的目标,ρ(s,a)是状态s和动作a上的概率分布,称之为行为分布。
2.如权利要求1所述的一种基于强化学习的虚假评分检测方法,其特征在于,在买家评分状态向量st中,表示买家Bi在他评分时序t的评分间隔时间(天),T是平台全局时间戳;
表示买家Bi在他评分时序t对卖家Sj的评分;
表示平台根据某种信誉模型计算的卖家Sj在某个时间窗口τ的信誉值,即买家Bi在全局时刻Tt从平台获得的卖家信誉值;
表示买家Bi之前的评分被平台标记为假的比率, 是前一时刻买家评分被平台标记为真的总次数, 是前一时刻平台标记为假的总次数。
3.如权利要求1所述的一种基于强化学习的虚假评分检测方法,其特征在于,优化损失函数Li(θi)时,上一次迭代i-1的参数保持不变,将损失函数与权值进行微分,得到如式(8)所示的梯度
4.如权利要求1所述的一种基于强化学习的虚假评分检测方法,其特征在于,迭代i的目标取决于网络权重。
5.如权利要求1所述的一种基于强化学习的虚假评分检测方法,其特征在于,Q网络中,输入为买家评分的状态向量st,中间使用了一个由20个节点组成的全连接隐藏层,输出层使用了Softmax输出卖家的评分动作at,DQN的目标就是通过agent不断的对环境的感知,按照策略和最优状态-动作值函数Q*(s,a)来选择动作,最终能够使未来的回报最大化。