1.一种基于Q学习的无人机辅助数据收集系统,其特征在于,包括:基站;
无人机;
地面感知区域,分割为数个区块;
无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;
无线数据收发器,搭载于无人机上;当无人机飞抵至无线传感器节点上方时,无线数据收发器与无线传感器节点交互,以获取无线传感器节点的数据包;
数据处理器,搭载于无人机上;数据处理器包括数据处理模块和Q学习模块,数据处理模块与无线数据收发器通信连接,Q学习模块与无人机通信连接;数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据无线传感器节点的信息年龄动态调整Q学习算法,以确定无人机的飞行动作;Q学习模块还用于将无人机的飞行动作的指令发送至无人机;
当无人机飞抵至无线传感器节点上方时,无线数据收发器还用于将感知数据转发给基站。
2.根据权利要求1所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述Q学习模块包括:
收益函数单元,用于根据无线传感器节点的信息年龄计算对应的收益函数值;
Q表更新单元,用于根据收益函数值动态更新Q表;
动作生成单元,用于根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作;
其中,无人机从开始执行辅助数据收集任务到结束执行辅助数据收集任务的时长被划分为等长的T个时隙,时隙的大小取值应确保无人机能够在一个时隙内完成感知数据的转发任务以及抽样采取的飞行动作,T为整数。
3.根据权利要求2所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所2
述地面感知区域分割为L 个区块,L为大于1的整数;
所述无线传感器节点有K个,第k个无线传感器节点的位置为 ,其中,,K为大于1的整数;
在第t个时隙,无人机的位置为 ;
在第t个时隙,第k个无线传感器节点生成数据包的个数为 ;
在第t个时隙,当第k个无线传感器节点生成了一个数据包,即 ,若无人机正好位于第k个无线传感器节点的上方,即 ,则服务参数 ;否则,服务参数;
在第t个时隙,第k个无线传感器节点的最新数据包寿命为:在第t个时隙,第k个无线传感器节点的信息年龄为:在第t个时隙,无线传感器网络的平均信息年龄为 ;
在第t个时隙,无人机的状态为 ;
在第t个时隙,无人机采取的飞行动作为 ,其中, 为无人机在状态st下所有可能采取飞行动作的集合,NW、N、NE、W、E、SW、S、SE分别表示无人机飞向位于当前区块的西北、北方、东北、西方、东方、西南、南方和东南的相邻区块;
在无人机的状态st下,采取飞行动作at之后所得到的收益函数值为 。
4.根据权利要求3所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述Q表的更新标准为:
其中,st和at为第t个时隙的无人机的状态和已经采取的飞行动作,st+1和a为第t+1个时隙的无人机的状态和可采取的飞行动作,rt为第t个时隙无人机根据接收到的数据计算得到的收益函数值; ,为Q表更新步长; ,为折扣系数;
更新完成之后,在当前时隙的无人机的状态s下,使得Q值最大的动作为当前时隙无人机的最优动作,即:
。
5.根据权利要求4所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述根据当前时隙的Q表和无人机的状态随机抽样一个飞行动作,包括:根据概率分布 抽样一个飞行动作;其中, 为贪心选择概率, 。
6.根据权利要求5所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述数据处理器还用于判断时隙的个数是否达到T;若是,则控制无人机返航。
7.根据权利要求1‑6任一项所述的一种基于Q学习的无人机辅助数据收集系统,其特征在于,所述无线数据收发器包括GPS定位模块和射频通信模块,GPS定位模块用于定位无人机的位置;射频通信模块用于与基站、无线传感器节点交互。
8.一种基于Q学习的无人机辅助数据收集方法,基于如权利要求6所述的无人机辅助数据收集系统,其特征在于,所述无人机辅助数据收集方法,包括以下步骤:S1、初始化参数:步长 ,贪心选择概率 ,时隙个数T,折扣系数,对无人机的所有状态s和飞行动作a,从0到1的均匀分布中随机抽样一个值赋予Q(s, a),并将无人机终止执行数据收集任务的状态的Q值设为0;
S2、初始化无人机的初始状态s1,随机抽样一个初始动作a1;
S3、判断是否获取无线传感器节点的数据包;若是,则转至步骤S4;若否,则转至步骤S6;
S4、对接收到的数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;根据接收到的无线传感器节点的信息年龄计算对应的收益函数值;还将感知数据转发给基站;
S5、根据收益函数值动态更新Q表;
S6、基于当前时隙的Q表和无人机的状态,根据概率分布抽样一个飞行动作;
S7、无人机执行抽样的飞行动作,以进入下一状态;
S8、判断无人机运行的时隙个数是否大于T;若是,则转至步骤S9;若否,则转至步骤S3;
S9、无人机返航,充满电后继续辅助执行数据收集任务,返回至步骤S2。