1.基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:包括以下步骤:S1:设置LAA小基站的状态集合和动作集合;
S2:在t=0时刻,初始化LAA小基站的状态和行为Q值为“0”;
S3:计算LAA小基站的初始状态st的状态值;
S4:根据公式计算Logistic混沌映射序列,然后将该序列映射到LAA小基站行为值集合中并随机选择一个行为at(i);
S5:执行行为at(i)后,系统将根据公式获取环境奖励值rt,然后进入到下一个状态st+1;
S6:根据公式更新LAA小基站的行为Q值函数;
S7:令t←t+1,重复执行步骤S4~S6,直至到达目标状态。
2.根据权利要求1所述的基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:在步骤S1中,LAA小基站的状态集合表示为系统吞吐量和公平性的组合,即st={Rt,Ft},Rt表示t时刻系统在未授权频段上所获得的总吞吐量,即LAA和WiFi用户吞吐量之和,Ft表示平均意义上的公平性函数,定义公平性函数为:其中Rt(s,l)和Rt(s,w)表示LAA和WiFi用户吞吐量,nl表示LAA小基站的数量,nw表示WiFi的用户数,根据预定义的吞吐量和公平性阈值,将LAA小基站分成四种状态:低吞吐量低公平性、低吞吐量高公平性、高吞吐量低公平性和高吞吐量高公平性,即其中 和 分别表示吞吐量和公平性的阈值,且对于行为集合,将竞争窗口值作为LAA小基站行为,并且根据有限动作集合的马尔科夫过程定义任意t时刻LAA小基站行为16≤at(i)≤128。
3.根据权利要求2所述的基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:在步骤S2中,设置LAA小基站的状态和行为Q值为零矩阵,对于LAA小基站马尔科夫决策过程的求解目标是寻找一个最优策略π*,以使得每一个状态s的值V(s)同时达到最大,状态值函数表示如下:其中r(st,at)表示LAA小基站从环境中获取的奖励值,p(st+1|st,at)表示LAA小基站当处于状态st时选择行为at后转移到状态st+1的概率。
4.根据权利要求3所述的基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:在步骤S4中,通过混沌运动中Logistic映射作为一种优化机制,以此选择行为at(i),Logistic映射系统的方程为:zk+1=μzk(1-zk)
其中0≤μ≤4称为分枝参数,在此取μ=4,k表示迭代次数,z称为混沌变量,混沌域为(0,1)。
5.根据权利要求4所述的基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:在步骤S5中,LAA小基站执行选择的行为后将从环境中获取一个奖励值,奖励值函数定义为:其中ε表示权重因子且0<ε<1, 表示共存系统吞吐量最低要求阈值,Ft°表示共存系统公平性函数的最小要求阈值。
6.根据权利要求5所述的基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法,其特征在于:在步骤S6中,LAA小基站在从环境中获取奖励值后,需要对Q矩阵进行更新,其更新公式为:其中α表示学习速率且0<α<1,Υ表示折扣因子且0≤Υ<1。