知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于深度强化学习的移动边缘计算的服务组合方法

￥28000

专利号： 2020113686039

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：包括以下步骤：S1：获取用户需求，对当前可用服务的QoS属性进行归一化处理；

S2：针对终端高度移动的特性，构建共享服务的移动终端模型；

S3：构建基于移动边缘计算的在线服务组合模型；

S4：利用深度强化学习算法对服务组合问题进行求解；

所述步骤S2包括：

定义服务节点的相对动态期为T＝[aij,bij]，若在该范围内的连接表示随时有可能会断开，当T＜aij表示稳定状态，当T＞bij表示断开状态，两个服务节点必断开；其中aij和bij均服从均匀分布；用pij表示服务可用的概率；

(1)若当前状态节点处于稳定状态，表示该状态节点提供的服务是完全可用的，在t时刻，该节点提供的服务不会移动到请求者的覆盖范围以外，即t＜aij；

(2)若当前状态节点处于相对动态时期，表示该状态提供的服务是不稳定的，服务节点在t时刻的不稳定性表示为(3)若当前状态节点处于断开状态，表示提供的服务不可用，在t时刻该终端已经移动出请求者的覆盖范围，即t＞bij；具体如下公式：步骤S3中所述服务组合模型定义为一个五元组RLSC＝S代表系统从初始状态到终止状态的过程中所有状态的集合，该状态包含初始状态和终止状态；

A(.)代表系统在状态s∈S下可采取的动作的集合，每个动作和具体服务存在一定的映射关系，A(.)是所有A(si)的集合，即组合服务中所有可能用到的全体服务集合；

P是状态转移函数，P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率；

R是奖励函数，当一个服务a∈A(s)被调用后，环境从当前状态s转移到下一状态s'，同时得到一个奖励值r＝R(s'|s,a)；当r＞0时，表示奖励；当r＜0时，表示惩罚；当选择某一个服务使服务组合质量越高，则奖励值越大，否则奖励值越小；服务组合的目标是选择最优候选服务使组合服务的累计回报值最高；

B表示Agent的状态，描述Agent处在状态s的概率，B(s)＝pij；

当选择某一动作后，将计算得到的奖励值，为保证服务组合过程能够高效进行，将服务的响应时间设置较大的权重，最终得到对应服务的奖励值，如公式(4)所示：基于QoS聚合值，将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示；

根据上述公式不断迭代选择最优的动作，直到达到终止状态，满足用户需求为止，使得服务组合的奖励值之和最大，服务组合达到近似最优；

步骤S4具体包括以下步骤：

S41：初始化参数：每个服务节点的相对动态期T＝[aij,bij]，折扣因子γ和学习率α，迭代次数和最大迭代次数，用户请求的初始服务和终止服务，初始化每个服务的奖励R；

S42：构建服务匹配原则：

根据服务Si的输入Si‑in＝{Ii1,Ii2,...Iin}和输出参数集Si‑out＝{Oi1,Oi2,...Oin}完成服务匹配，匹配规则采用模糊匹配的方式；

其中服务的输入和输出参数集合中，存在不同的参数具有相同的语义包含关系；

S43：不断迭代，当迭代次数小于k时，根据启发式选择策略直接进入步骤S45，否则进入步骤S44；

S44：采用启发式选择策略选择适当的动作；启发式选择策略选择下一动作的步骤为：判断当前服务节点状态是否处于稳定状态，若处于稳定状态，则通过查找Q表选择最优的动作；如果当前状态处于相对动态时期，为避免两节点交互时断开，根据下列公式选择可靠性最高的动作，选择概率最大的动作；

S45：采用ε‑greedy策略选择一个可用动作，并与环境交互得到反馈；

S46：对历史信息进行存储，并更新神经网络或Q值表，更新Q值表时将服务的奖励值作为瞬时奖励值，更新公式为：Q(s,a)←Q(s,a)+α[r+γmaxa'Q(s',a')‑Q(s,a)] (6)Q(s,a)＝Q(s,a)×Reij (7)

S47：系统当前状态更新为下一状态，对当前状态是否为终止状态进行判断，若是终止状态进入步骤S4，否则返回步骤S43；

S48：观察神经网络的收敛情况，若神经网络收敛小于阈值，采用贪心原则，选择一条从开始状态到终止状态的组合路径，并将该路径上的服务组合结果反馈给用户，完成了一次服务组合。

2.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性；

所述归一化处理包括：当服务的QoS属性和服务质量之间呈正相关时，采用公式(1)对服务进行规格化处理；反之采用公式(2)：服务请求为初始服务S0，期望得到的服务参数为终止服务ST。

3.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：通过深度神经网络来拟合函数，拟合函数为：Q(s,a)＝f(s,θ) (8)

即输入当前状态s，输出的是包含了所有动作的Q值的向量[Q(s,a1),Q(s,a2),Q(s,a3),...,Q(s,an)]，损失函数为：2

L(θ)＝E[(Qtarget‑Q(s',a'；θ)) ] (9)其存在两个结构完全相同但参数不同的神经网络，预测Q估计的网络MainNet使用最新的参数，而预测Q现实的神经网络TargetNet参数使用的是之前的，Q(s,a；θi)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a；θi')表示TargetNet的输出，当agent对环境采取动作a时可根据公式(10)计算出Q并根据损失函数更新MainNet的参数；

Qtarget＝r'+γmaxa'Q(s',a'；θ) (10)每经过一定次数的迭代，将MainNet的参数复制给TargetNet。