欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021101713650
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的日程安排推荐方法,其特征在于,包括训练日程安排模型的步骤:

步骤1:根据用户当前位置的坐标和用户需求列表NL,从POI数据集中读取距离用户当前位置最近的kn个候选POI的id;其中,k表示用户需求列表NL中的用户需求类别数,n表示为用户提供同一需求类别的POI个数;

步骤2:根据用户当前位置和kn个候选POI的id,从POI特征数据集中读取kn个候选POI的特征,并对每个候选POI的每个特征进行归一化;所述POI的特征为向量其中,#distance表示用户当前位置与候选POI之间的距离,或在kn个候选POI中任意两个POI之间的距离;#walking‑distance表示用户从当前位置到任一个候选POI需要步行的距离,或在kn个候选POI中用户从一个POI到另一个POI需要步行的距离;#cost表示用户从当前位置到任一个候选POI需要支出的费用,或在kn个候选POI中用户从一个POI到另一个POI需要支出的费用;#expedite表示用户当前位置与候选POI之间交通状态为畅通的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为畅通的路段在整个路段的占比;#slow‑moving表示用户当前位置与候选POI之间交通状态为缓行的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为缓行的路段在整个路段的占比;#congestion表示用户当前位置与候选POI之间交通状态为拥堵的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为拥堵的路段在整个路段的占比;#unknown表示用户当前位置与候选POI之间交通状态为未知的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为未知的路段在整个路段的占比;#duration用户从当前位置到任一个候选POI需花费的时间,或在kn个候选POI中用户从一个POI到另一个POI需花费的时间;#rating表示用户对kn个候选POI的服务评分;

步骤3:设置最大训练次数为E;

步骤4:将用户在时间步t的状态st输入到活动因素权衡网络DAFB中,得到所有候选POI的概率分布;

其中,st=<NLt,dst,Xt>,NLt是用户在时间步t的需求列表,dst是用户在时间步t的日程安排,Xt包含了用户在时间步t可选的 当初始时间步即t=0时,ds0是空集;

在候选POI的概率分布中,每个POI被选中的概率为:*

其中, 表示用户在状态st下进行选择POI的动作at的概率; 表示在*

状态st下进行选择POI的动作at的活动因素权衡网络DAFB,θ表示活动因素权衡网络DAFB的*

所有参数;st表示用户在时间步t的状态,at表示用户在时间步t进行选择POI的动作,A(st)包括在状态st下用户所有可能进行选择的动作a′t;

所述 包括:

输入层a,包括第一输入、第二输入和第三输入;其中,第一输入包括特征#distance、#walking‑distance和#cost;第二输入包括特征#expedite、#slow‑moving、#congestion、#unknown和#duration;第三输入包括特征#rating;线性层b,包括分别对应输入层a的第一输入、第二输入和第三输入的三个隐藏单元;

融合层,包括连接层c、线性层d和线性层e;三个隐藏单元通过融合层得到每个POI的初始概率;

通过连接层f将kn个POI的初始概率进行连接后,使用Softmax函数得到所有候选POI的概率分布;

步骤5:按候选POI的概率分布随机抽样出动作at;

步骤6:根据动作at,将状态st转换到下一个时间步t+1的状态st+1,t t

其中,T是状态转移函数,poi是在时间步t选择的POI,qt表示与poi 提供的服务对应的需求, 包含了所有为需求qt提供服务的POI; 和 分别表示从集合中删除和添加元素, 表示将集合 中的元素从集合Xt中移除;

步骤7:根据当前状态st和动作at,计算标量奖励r(st,at),并将时间步t的标量奖励r(st,at)存储到奖励集合R中;其中,r(st,at)=δ*(1‑#cost)+(1‑δ)*#rating,δ是平衡因子;

步骤8:重复执行步骤4、5、6和7,直到需求列表NLt为空;

步骤9:根据日程安排dst和奖励集合R计算损失函数L(θ),其中, 表示在状态st下选择了日程安排dst的活动因素权衡网络DAFB;

步骤10:利用梯度下降的方法更新参数:其中,θt+1和θt分别表示在时间步t+1和时间步t的参数;α表示学习率; 表示对参数θ进行求导;

步骤11:跳转到步骤3,直到训练次数等于E;

还包括,推荐日程安排的步骤,具体为:

2.1以步骤1、步骤2相同的方法处理用户实时数据;

2.2以步骤4相同的方法,将用户在时间步t的状态st输入到活动因素权衡网络DAFB中,得到所有候选POI的概率分布;

2.3按候选POI的概率分布抽样出概率最高的动作at;

2.4以步骤6相同的方法,根据动作at将状态st转换到下一个时间步t+1的状态st+1;

2.5重复执行2.2、2.3和2.4,直到需求列表NLt为空,得到为用户推荐的日程安排dst。