1.一种非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:该方法利用Q算法,不断学习探索网络环境,动态调节LTE-U与WiFi的最佳共存时间,以此来降低LTE-U对WiFi系统的干扰,提高网络整体吞吐量;
该方法具体包括以下步骤:
S1:分别给LTE-U和WiFi设置预期吞吐量 并给LTE基站编号;
S2:划分状态State和动作Action;
S3:对全部LTE基站建立全零Q矩阵;
S4:确定当前网络整体吞吐量C所处的状态State j,j表示当前的状态编号,1≤j≤N,N表示状态总数;
S5:选择动作Action:产生一个服从均匀分布的0到1的随机数r,如果r小于预设固定值ε,则随机选择动Action q,否则,则选择 中对应的动作Action q;此种选择动作Action方式,即可保证以一定概率随机探索新动作Action,又可依照经验选择此状态下Q值,即代价最小的动作Action;q表示当前的动作编号,1≤q≤S,S表示动作Action总数;
S6:执行所选择的动作Action q,并在当前传输周期T结束后,记录下LTE-U和WiFi系统当前各自的吞吐量CL、CW;
S7:更新网络整体吞吐量Cupd,得出此时网络所处的状态State upd并更新Q矩阵;
S8:更新状态State:根据步骤S7中得出的当前状态State upd,更新此时的网络状态State,并跳转至步骤S5,进行下一个传输周期T内动作Action的选择。
2.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S1中,网络侧根据LTE-U和WiFi系统各自的瞬时吞吐量峰值乘以相应的百分比,设置LTE-U和WiFi系统的预期吞吐量 设置LTE基站编号,编号从场景中心小区的基站起始,依次编号:B1、B2…BM,M为场景中的基站总数。
3.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S2中,状态State的划分可对网络整体期望吞吐量进行均分得出。
4.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S2中,动作Action划分为4种情况,即20%、40%、60%、80%;该4种Action代表LTE-U在一个传输周期内T的传输时间比例,即LTE-U与WiFi在一个传输周期时间T内共存的时间。
5.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S3中,全部LTE基站建立全零Q矩阵,基站Bi的Q矩阵元素为其中,j表示当前的状态编号,q表示当前的动作编号,1≤j≤N,1≤q≤S;N表示状态总数,S表示动作总数,即为4。
6.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S4中,根据步骤S2中的State划分规律,确定当前网络整体吞吐量C所处的Statej。
7.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S5中,考虑到Q学习算法是根据过去的经验选择动作Action q,为了保证Q算法选择的有效性,在Q算法中规定以一定的概率ε跳出经验的限制以探索更优的选择结果并进一步保障Q算法在提高网络整体吞吐量的优势,其中,ε的取值为0.04。
8.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S6中:在当前传输周期T内,LTE-U系统执行Action q对应的传输时间比例,传输比例与传输时间比例的对应关系为:传输时间=传输时间比例×传输周期T。
9.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S7中,利用步骤S6中记录的LTE-U和WiFi的当前吞吐量CL、CW,通过Cupd=CL+CW计算出此时网络整体吞吐量Cupd,结合步骤S2中确定的State划分情况,得出此时的网络状态State upd。
10.根据权利要求1所述的非授权频段LTE-U和WiFi系统基于Q算法的动态占空比共存方法,其特征在于:在步骤S7中,每一个传输周期结束后,都需要对Q矩阵进行更新,Q矩阵更新式为:
上式等号右边的
为更新后的Q值,等号左边的
为更新前的Q其中,代价Cost和更新的
Q_v的计算方式为:
代价Cost值代表着已选的动作Action q对于LTE-U和WiFi网络达到预期吞吐量是否有促进的作用;当Cost值较小,表示Action q有利于LTE-U和WiFi网络达到预期吞吐量,反之,则表示Actionq不利于使LTE-U和WiFi网络达到预期吞吐量;更新公式中的学习因子α和折扣因子γ,取值范围都为(0,1),二者协同作用调节Q矩阵的更新,进而影响Q算法的学习效果,α取值0.5,γ取值0.9。