欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113686039
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:包括以下步骤:S1:获取用户需求,对当前可用服务的QoS属性进行归一化处理;

S2:针对终端高度移动的特性,构建共享服务的移动终端模型;

S3:构建基于移动边缘计算的在线服务组合模型;

S4:利用深度强化学习算法对服务组合问题进行求解;

所述步骤S2包括:

定义服务节点的相对动态期为T=[aij,bij],若在该范围内的连接表示随时有可能会断开,当T<aij表示稳定状态,当T>bij表示断开状态,两个服务节点必断开;其中aij和bij均服从均匀分布;用pij表示服务可用的概率;

(1)若当前状态节点处于稳定状态,表示该状态节点提供的服务是完全可用的,在t时刻,该节点提供的服务不会移动到请求者的覆盖范围以外,即t<aij;

(2)若当前状态节点处于相对动态时期,表示该状态提供的服务是不稳定的,服务节点在t时刻的不稳定性表示为(3)若当前状态节点处于断开状态,表示提供的服务不可用,在t时刻该终端已经移动出请求者的覆盖范围,即t>bij;具体如下公式:步骤S3中所述服务组合模型定义为一个五元组RLSC=S代表系统从初始状态到终止状态的过程中所有状态的集合,该状态包含初始状态和终止状态;

A(.)代表系统在状态s∈S下可采取的动作的集合,每个动作和具体服务存在一定的映射关系,A(.)是所有A(si)的集合,即组合服务中所有可能用到的全体服务集合;

P是状态转移函数,P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率;

R是奖励函数,当一个服务a∈A(s)被调用后,环境从当前状态s转移到下一状态s',同时得到一个奖励值r=R(s'|s,a);当r>0时,表示奖励;当r<0时,表示惩罚;当选择某一个服务使服务组合质量越高,则奖励值越大,否则奖励值越小;服务组合的目标是选择最优候选服务使组合服务的累计回报值最高;

B表示Agent的状态,描述Agent处在状态s的概率,B(s)=pij;

当选择某一动作后,将计算得到的奖励值,为保证服务组合过程能够高效进行,将服务的响应时间设置较大的权重,最终得到对应服务的奖励值,如公式(4)所示:基于QoS聚合值,将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示;

根据上述公式不断迭代选择最优的动作,直到达到终止状态,满足用户需求为止,使得服务组合的奖励值之和最大,服务组合达到近似最优;

步骤S4具体包括以下步骤:

S41:初始化参数:每个服务节点的相对动态期T=[aij,bij],折扣因子γ和学习率α,迭代次数和最大迭代次数,用户请求的初始服务和终止服务,初始化每个服务的奖励R;

S42:构建服务匹配原则:

根据服务Si的输入Si‑in={Ii1,Ii2,...Iin}和输出参数集Si‑out={Oi1,Oi2,...Oin}完成服务匹配,匹配规则采用模糊匹配的方式;

其中服务的输入和输出参数集合中,存在不同的参数具有相同的语义包含关系;

S43:不断迭代,当迭代次数小于k时,根据启发式选择策略直接进入步骤S45,否则进入步骤S44;

S44:采用启发式选择策略选择适当的动作;启发式选择策略选择下一动作的步骤为:判断当前服务节点状态是否处于稳定状态,若处于稳定状态,则通过查找Q表选择最优的动作;如果当前状态处于相对动态时期,为避免两节点交互时断开,根据下列公式选择可靠性最高的动作,选择概率最大的动作;

S45:采用ε‑greedy策略选择一个可用动作,并与环境交互得到反馈;

S46:对历史信息进行存储,并更新神经网络或Q值表,更新Q值表时将服务的奖励值作为瞬时奖励值,更新公式为:Q(s,a)←Q(s,a)+α[r+γmaxa'Q(s',a')‑Q(s,a)]    (6)Q(s,a)=Q(s,a)×Reij     (7)

S47:系统当前状态更新为下一状态,对当前状态是否为终止状态进行判断,若是终止状态进入步骤S4,否则返回步骤S43;

S48:观察神经网络的收敛情况,若神经网络收敛小于阈值,采用贪心原则,选择一条从开始状态到终止状态的组合路径,并将该路径上的服务组合结果反馈给用户,完成了一次服务组合。

2.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性;

所述归一化处理包括:当服务的QoS属性和服务质量之间呈正相关时,采用公式(1)对服务进行规格化处理;反之采用公式(2):服务请求为初始服务S0,期望得到的服务参数为终止服务ST。

3.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法,其特征在于:通过深度神经网络来拟合函数,拟合函数为:Q(s,a)=f(s,θ)    (8)

即输入当前状态s,输出的是包含了所有动作的Q值的向量[Q(s,a1),Q(s,a2),Q(s,a3),...,Q(s,an)],损失函数为:2

L(θ)=E[(Qtarget‑Q(s',a';θ)) ]     (9)其存在两个结构完全相同但参数不同的神经网络,预测Q估计的网络MainNet使用最新的参数,而预测Q现实的神经网络TargetNet参数使用的是之前的,Q(s,a;θi)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θi')表示TargetNet的输出,当agent对环境采取动作a时可根据公式(10)计算出Q并根据损失函数更新MainNet的参数;

Qtarget=r'+γmaxa'Q(s',a';θ)     (10)每经过一定次数的迭代,将MainNet的参数复制给TargetNet。