1.一种基于水稻育种‑二进制蚁群混合算法的文本特征选择方法,其特征在于,包括以下步骤:
步骤1:对文本数据集进行预处理,经过分词和去除停用词之后转换成计算机能够直接处理的文本向量,并将整个数据集划分成训练集和测试集;
步骤2:通过平均关系距离对训练集进行初步特征选择,取前D个特征构成初步的特征集;
步骤3:混合算法开始迭代计算,在每次迭代中,首先采用水稻育种算法在初步特征集的基础上再次进行特征选择,运用统计方法得到每个特征项的权重值,并将权重值作为二进制蚁群算法中的能见度,此外将本代最优个体的基因序列保留;
步骤4:获取到能见度之后,使用二进制蚁群算法同样在初步特征集上进行特征选择,并保留本代中蚂蚁找到的最佳路径;
步骤5:将两种算法得到的两种不同的最优解进行比较,将较优解作为本代的局部最优,当达到最大迭代次数时,将全局最优解和初步特征集一一对应得到最终特征集并输出。
2.根据权利要求1所述的采用基于水稻育种‑二进制蚁群混合算法的文本特征选择方法,其特征在于,步骤1具体实现包括以下子步骤:步骤1.1:文本向量D使用它其中的特征项和它们对应的权值来描述:D=D(t1,ω1,t2,ω2,...,tn,ωn),简化为D=D(ω1,ω2,...,ωn),其中tk和ωk即为特征项和权值,1≤k≤n;
步骤1.2:通过TF‑IDF向量表示法来计算文本向量D中的权值,TF‑IDF向量表示法可以用公式(1)来表示:
其中,ω(ti,d)为特征项词条ti在文本d中的权重,tfi(ti,d)为特征项ti在文本d中出现的频率,N为训练文本的总数,ni代表训练文本集合中出现特征项t的文本数目。
3.根据权利要求1所述的采用基于水稻育种‑二进制蚁群混合算法的文本特征选择方法,其特征在于,步骤2中的平均距离关系距离可以用公式(2)表示:其中p(ti,tj)表示的是ti,tj共同出现的概率,也就是ti,tj共同出现的次数与所有特征项个数的比值,p(ti)表示的是特征项ti出现的概率,即特征项ti出现的次数与所有特征项个数的比值,p(tj)表示的是特征项ti出现的概率,即特征项tj出现的次数与所有特征项个数的比值,当所有特征项的R值求出来之后,所有的特征按R值的大小降序排列,取前D个特征作为初步特征集。
4.根据权利要求1所述的采用基于水稻育种‑二进制蚁群混合算法的文本特征选择方法,其特征在于,步骤3具体实现包括以下子步骤:步骤3.1:初始化水稻种群为N,初步特征集中的特征数D作为个体的维度值,并且设置最大的迭代次数为Tmax,计算适应度值,通过适应度值降序排列将种群划分为三个部分分别是保持系、恢复系和不育系;其中计算适应度值的函数用公式(3)和(4)来表示:其中,MAD(Xi)表示的是种群中的第i个个体的适应度值,xi,j表示的是第i个个体中第j个权重,ai代表第i个个体选择的特征项的个数,t表示的是所有的特征项的个数, 表示的是第i个个体的变化值;
步骤3.2:分别从保持系和不育系中选择两种水稻进行杂交;因此,从保持系和不育系杂交育种过程中产生种子基因的公式(5)为:其中 为不育系第i个水稻种子的第k个基因, 和 为随机选择的保持系和不育系第k个基因,r1和r2为‑1和1之间的随机值,通过公式(5)计算得到下一代种子基因之后,利用适应度函数计算新生成种子的适应度值,并与杂交前水稻适应度值进行比较;适合度值较高的个体将基因留给下一代;
步骤3.3:恢复系水稻与随机选择的同源个体进行自交,在进行自交操作之前,对每个进行自交的水稻设置最大的自交次数tmax,根据公式(6)自交结束后通过比较水稻种子与个体自交前的适应度值,将较优的基因保留到下一代,并将自交数量重置为零,否则自交次数加1;
为自交产生的第i个水稻种子的第k个基因, 和 为恢复系的第i个和第j个个体(i≠j), 为当前最优解的第k个基因,r3为均匀分布在[0,1]范围内的随机值;
步骤3.4:当恢复系中的个体自交的次数达到tmax的时候,跳过步骤3.3直接进行更新操作,更新操作的公式(7)如下:
为恢复系第i个个体生成的水稻种子,Rmax和Rmin为搜索空间的上下限值,r4为[0,1]之间生成的随机值;
步骤3.5:对杂交水稻的基因进行二进制编码,限制每个基因的取值只能是0或1,则首先需要将每一维的基因转换成为取0或者1的概率,转换公式为:再通过概率将基因转换成0或1的公式为:其中sigmoid()为变换函数, 为第i个水稻种子经二进制编码的第k个基因;每个水稻种子中的基因序列代表一种特征选择规则,序列中的每一维对应一个特征项,而每一个特征项对应着两种结果:被选中与不被选中,每个特征项被选中则取1,不被选中则取0,故每个水稻种子的基因序列可以看成是一个长度等于特征数的二进制串;
步骤3.6:通过投票机制对每个特征进行投票,将投票结果作为二进制蚁群算法的能见度来源:
其中,Y代表的是水稻育种算法中的种群, 表示的是第N个个体的第D维基因,H表示的二进制蚁群算法中每只蚂蚁的能见度矩阵。
5.根据权利要求1所述的采用基于水稻育种‑二进制蚁群混合算法的文本特征选择方法,其特征在于,步骤4具体实现包括以下子步骤:步骤4.1:在二进制蚁群算法中,每一只蚂蚁从二元网络中的初始节点出发,按照相应的概率选择即将访问的节点,初步特征集中的每一个特征项对应二元网络中的一对节点,节点1表示该特征项被选中,节点0表示该特征项未被选中;则蚂蚁选择下一个即将访问的节点的概率为:
是蚂蚁k从位置i转移到位置j的概率,α(α≥0)是信息素的相对重要程度,β(β≥0)是启发因子的相对重要程度,τi,j(0)是i,j连线上面的j为0的边上信息素是残留量,τi,j(1)是i,j连线上面的j为1的边上信息素的残留量,ηi.j(0)是i,j连线上面的j为0的边能见度,ηi.j(1)是i,j连线上面的j为1的边能见度;蚂蚁每次通过概率选择一个节点,就用1或0表示该特征项选中或未被选中,直到蚂蚁标记完初步特征集中的所有特征项;
步骤4.2:随着时间的流逝,在每次迭代的结束之前,需要对二元网络上的信息素进行更新,则更新信息素的公式如下:
τi,j(0)(t+1)=(1‑ρ)τi,j(0)(t)+Δτi,j (13)τi,j(1)(t+1)=(1‑ρ)τi,j(1)(t)+Δτi,j (14)其中,ρ(0<ρ<1)为信息素蒸发率,τi,j=1/f(Sbest)为信息素增量,f(Sbest)为每次迭代最优解的适应度值。
6.根据权利要求1所述的采用水稻育种‑二进制蚁群算法的文本特征选择方法,其特征在于,所述步骤5中将水稻育种算法和二进制蚁群算法中最优个体的适应度值进行比较,取较优个体的解应用在初步特征集上得到需要输出的最终特征集,比较公式为:xbest代表的是本代中水稻育种算法的最优种子,ybest代表的是本代中二进制蚁群算法中蚂蚁找到的最优路径,Dbest是本代中经过比较得到的最优解。