知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于强化学习的虚假评分检测方法

￥46300

专利号： 2019111450508

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-04

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于强化学习的虚假评分检测方法，其特征在于，该方法基于Q网络，包括以下步骤：定义买家评分状态向量st，st由四元组构成，反映了买家的状态特征：其中，表示买家自身的内在属性， Fit表示买家所处外部环境的特征；

定义买家动作向量at＝{0,1}，买家的动作向量包括两个状态：对于买家，诚实还是撒谎；对于平台，评分是真、还是假，对应的状态值分别为1和0；

定义买家动作的奖励函数rt，如式(4)所示，

C为大于0小于1的常数，被称为奖励参数；

交易买家的交易经验组成平台交易全集D，在数据集D中使用DQN的方法学习买家的评分行为，从而预测买家评分的真或假，实现虚假评分检测；

在DQN的Q网络中，策略和最优状态-动作值函数Q*(s,a)的计算式为(5)所示，其中，其中πε(s)是ε贪心策略，函数Q(s,a；θ)是一个被称之为Q网络的神经网络，θ是它的权重参数，当Q网络迭代学习的次数足够多时，采用函数Q(s,a；θ)近似计算最优状态-动作值函数，即Q(s,a；θ)≈Q*(s,a)，Q网络通过每次迭代i时最小化损失函数序列Li(θi)来训练，Li(θi)由式(7)计算，Li(θi)＝Es,a～ρ(·)[(yi-Q(s,a；θi))2] (7)其中yi＝Es'～ε[r+γmaxa'Q(s',a'；θi-1)|s,a]是迭代i的目标，ρ(s,a)是状态s和动作a上的概率分布，称之为行为分布。

2.如权利要求1所述的一种基于强化学习的虚假评分检测方法，其特征在于，在买家评分状态向量st中，表示买家Bi在他评分时序t的评分间隔时间(天)，T是平台全局时间戳；

表示买家Bi在他评分时序t对卖家Sj的评分；

表示平台根据某种信誉模型计算的卖家Sj在某个时间窗口τ的信誉值，即买家Bi在全局时刻Tt从平台获得的卖家信誉值；

表示买家Bi之前的评分被平台标记为假的比率，是前一时刻买家评分被平台标记为真的总次数，是前一时刻平台标记为假的总次数。

3.如权利要求1所述的一种基于强化学习的虚假评分检测方法，其特征在于，优化损失函数Li(θi)时，上一次迭代i-1的参数保持不变，将损失函数与权值进行微分，得到如式(8)所示的梯度

4.如权利要求1所述的一种基于强化学习的虚假评分检测方法，其特征在于，迭代i的目标取决于网络权重。

5.如权利要求1所述的一种基于强化学习的虚假评分检测方法，其特征在于，Q网络中，输入为买家评分的状态向量st，中间使用了一个由20个节点组成的全连接隐藏层，输出层使用了Softmax输出卖家的评分动作at，DQN的目标就是通过agent不断的对环境的感知，按照策略和最优状态-动作值函数Q*(s,a)来选择动作，最终能够使未来的回报最大化。