1.一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,该方法包括以下步骤:
S1:建立基于部分隐马尔科夫(partially observable markov desicion process,POMDP)模型的对话问题引导策略,通过POMDP模型的内部作用器给用户对话环境状态施加动作,使对话环境状态发生变化,获得一定回报,并根据所获得的累计回报来衡量所执行一系列策略的可能性,将问题转换成策略选择问题;
S2:构建深度增强学习的问题引导策略优化算法,根据POMDP模型得到的对话问题引导策略,采用基于深度增强学习(Deep Q Network,DQN)的策略优化方法来选择最佳行动策略。
2.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,在所述步骤S1中,所述的建立基于POMDP模型的对话问题引导策略具体包括以下步骤:S11:将POMDP模型描述为,其中S={si|i=1,...,m}表示对话环境状态集,其中m表示对话环境状态数量;A={ak|k=1,...,n}表示动作集,其中n表示对话环境中执行动作数量;当模型执行动作ak时,引起对话环境状态从si转移到sj;T={p(sj|si,a)|sj,si∈S,a∈A}表示状态转移概率集;p(sj|si,a)表示在对话环境状态si执行动作a后对话环境状态转移为j的概率;O={oi|i=1,...,n}表示对话观察集;R={rij(a)|a∈A}表示回报集,rij(a)表示模型执行动作a,对话环境状态从si转移到sj后所获得的回报;β表示回报折扣因子,其中0<β<1;Q={p(oj|si,a)|oj∈O,si∈S,a∈A}表示对话观察概率,p(oj|si,a)表示执行动作a后,在结果状态si观察到oj的概率;b0表示初始对话环境状态的概率分布;
S12:对话置信状态推导:对话环境状态在POMDP模型概率分布中的置信状态表示为B={bt},t时刻的概率分布为bt={bt(s1),...,bt(sm)},其中bt(si)表示t时刻环境状态为si的概率;通过对当前时刻对话环境的观察与动作的选择,POMDP模型推导出下一时刻环境状态的置信值;假设起始时刻的置信状态为b0,执行动作a与观察o,获得下一时刻置信状态b1。当处于状态s1,模型获得的观察为o1,模型内部状态为i1;通过计算,根据问题引导策略选择相应的动作a1,导致环境状态从s1转移到s2,模型获得回报r1与观察o2,此时模型内部状态从i1(b1)转移到i2(b2),然后模型依此继续运行;
S13:构建问题引导策略:构建问题的引导策略估计函数来实现对话状态跟踪,该函数表示为:
其中, 是对应节点l的动作向量状态s的值,ψ(l)表示输出的与节点l相关的动作,η(l,o)表示在收到观察o后节点l的后继,s`表示当前对话环境状态,Z(s`,ψ(l),o)表示当前回报函数,R(s,ψ(l))表示节点l处的状态回报,γ表示每个时间步长的因子,γ∈[0,
1];通过策略演化,得到下一时刻的问题引导策略函数:
其中 表示最优策略,Vt*表示上一时刻的策略函数,β表示回报折扣因子,r(b,a)表示当前执行动作a,在概率分布b下的回报,B`表示下一时刻置信状态,b`表示下一时刻的概率分布。
3.根据权利要求1所述的一种基于状态跟踪与策略导向下的移动客服对话管理方法,其特征在于,在所述步骤S2中,所述的构建深度增强学习的问题引导策略优化算法具体包括以下步骤:S21:构建Q网络(Q(s,a;θ))定义行为策略,利用目标Q网络(Q(s,a;θ-))生成DQN丢失项的目标Q值,以及重新记忆POMDP模型用于训练Q网络的随机采样状态值;
S22:通过增强学习定义POMDP模型的预期总回报:
其中,回报rt由每个时间步长的因子γ∈[0,1]折算,T是终止步骤;采用动作值函数Qπ(s,a)观察状态st的预期回报,并利用神经网络Q(s,a)=(Q(s,a;θ))近似动作值函数;对于基于动作a下的引导策略π,最优动作值函数Qπ(s,a)=E[Rt|st=a,a1=a,π]通过策略实现;构建含有动作值a的贝尔曼Bellman方程:其中,Q*(s,a)表示下一状态最优值函数、Q*(s`,a`)表示当前状态最优值函数;通过调整Q网络对迭代的Bellman目标参数进行求解;
S23:DQN使用记忆重构,在POMDP模型的每个时间步长t内,将记忆元组et=(st,at,rt,st+1)存放到记忆存储器Dt={e1,…,et}中;
S24:DQN分别维持两个独立的Q网络(Q(s,a;θ))和(Q(s,a;θ-)),当前参数θ在每个时间步长内进行多次更新,并在N次迭代之后被复制到旧参数θ-中;在更新迭代时,为了最小化相对于旧参数θ-的均方Bellman误差,优化损失函数:更新当前参数θ;对于每次更新i,从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)~U(D);对于每个样本,通过随机梯度下降算法更新当前参数θ;下降的梯度gi通过θ相对于θ-的损失样本梯度为:其中, 表示梯度下降函数符号;
S25:在每个时间步长t内,选择相对于当前Q网络(Q(s,a;θ))的偏好行为动作;使用中心参数服务器来维护Q网络(Q(s,a;θ-))的分布式表示;同时,该参数服务器接收强化学习到的渐变信息,并在异步随机梯度下降算法的驱动下,应用这些渐变信息来修改参数向量θ-。