知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度强化学习的日程安排推荐方法

￥38400

专利号： 2021101713650

申请人：西南交通大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度强化学习的日程安排推荐方法，其特征在于，包括训练日程安排模型的步骤：

步骤1：根据用户当前位置的坐标和用户需求列表NL，从POI数据集中读取距离用户当前位置最近的kn个候选POI的id；其中，k表示用户需求列表NL中的用户需求类别数，n表示为用户提供同一需求类别的POI个数；

步骤2：根据用户当前位置和kn个候选POI的id，从POI特征数据集中读取kn个候选POI的特征，并对每个候选POI的每个特征进行归一化；所述POI的特征为向量其中，#distance表示用户当前位置与候选POI之间的距离，或在kn个候选POI中任意两个POI之间的距离；#walking‑distance表示用户从当前位置到任一个候选POI需要步行的距离，或在kn个候选POI中用户从一个POI到另一个POI需要步行的距离；#cost表示用户从当前位置到任一个候选POI需要支出的费用，或在kn个候选POI中用户从一个POI到另一个POI需要支出的费用；#expedite表示用户当前位置与候选POI之间交通状态为畅通的路段在整个路段的占比，或在kn个候选POI中任意两个POI之间交通状态为畅通的路段在整个路段的占比；#slow‑moving表示用户当前位置与候选POI之间交通状态为缓行的路段在整个路段的占比，或在kn个候选POI中任意两个POI之间交通状态为缓行的路段在整个路段的占比；#congestion表示用户当前位置与候选POI之间交通状态为拥堵的路段在整个路段的占比，或在kn个候选POI中任意两个POI之间交通状态为拥堵的路段在整个路段的占比；#unknown表示用户当前位置与候选POI之间交通状态为未知的路段在整个路段的占比，或在kn个候选POI中任意两个POI之间交通状态为未知的路段在整个路段的占比；#duration用户从当前位置到任一个候选POI需花费的时间，或在kn个候选POI中用户从一个POI到另一个POI需花费的时间；#rating表示用户对kn个候选POI的服务评分；

步骤3：设置最大训练次数为E；

步骤4：将用户在时间步t的状态st输入到活动因素权衡网络DAFB中，得到所有候选POI的概率分布；

其中，st＝＜NLt,dst,Xt＞,NLt是用户在时间步t的需求列表，dst是用户在时间步t的日程安排，Xt包含了用户在时间步t可选的当初始时间步即t＝0时，ds0是空集；

在候选POI的概率分布中，每个POI被选中的概率为：*

其中，表示用户在状态st下进行选择POI的动作at的概率；表示在*

状态st下进行选择POI的动作at的活动因素权衡网络DAFB，θ表示活动因素权衡网络DAFB的*

所有参数；st表示用户在时间步t的状态，at表示用户在时间步t进行选择POI的动作，A(st)包括在状态st下用户所有可能进行选择的动作a′t；

所述包括：

输入层a，包括第一输入、第二输入和第三输入；其中，第一输入包括特征#distance、#walking‑distance和#cost；第二输入包括特征#expedite、#slow‑moving、#congestion、#unknown和#duration；第三输入包括特征#rating；线性层b，包括分别对应输入层a的第一输入、第二输入和第三输入的三个隐藏单元；

融合层，包括连接层c、线性层d和线性层e；三个隐藏单元通过融合层得到每个POI的初始概率；

通过连接层f将kn个POI的初始概率进行连接后，使用Softmax函数得到所有候选POI的概率分布；

步骤5：按候选POI的概率分布随机抽样出动作at；

步骤6：根据动作at，将状态st转换到下一个时间步t+1的状态st+1，t t

其中，T是状态转移函数，poi是在时间步t选择的POI，qt表示与poi 提供的服务对应的需求，包含了所有为需求qt提供服务的POI；和分别表示从集合中删除和添加元素，表示将集合中的元素从集合Xt中移除；

步骤7：根据当前状态st和动作at，计算标量奖励r(st,at)，并将时间步t的标量奖励r(st,at)存储到奖励集合R中；其中，r(st,at)＝δ*(1‑#cost)+(1‑δ)*#rating，δ是平衡因子；

步骤8：重复执行步骤4、5、6和7，直到需求列表NLt为空；

步骤9：根据日程安排dst和奖励集合R计算损失函数L(θ)，其中，表示在状态st下选择了日程安排dst的活动因素权衡网络DAFB；

步骤10：利用梯度下降的方法更新参数：其中，θt+1和θt分别表示在时间步t+1和时间步t的参数；α表示学习率；表示对参数θ进行求导；

步骤11：跳转到步骤3，直到训练次数等于E；

还包括，推荐日程安排的步骤，具体为：

2.1以步骤1、步骤2相同的方法处理用户实时数据；