欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019102665182
申请人: 河南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于精英花授粉算法和ReliefF的肿瘤基因特征选择方法,其特征在于,应用于生物医学数据集的特征选择过程,生物医学数据集中的每个样本均含有若干个基因特征,一个样本对应一个个体,所述方法包括:步骤1、采用基于ReliefF特征排序和随机化的双初始种群策略对由M个个体组成的种群进行初始化;具体包括:步骤1.1、将M个个体平均分为两个种群:第一肿瘤基因特征群体和第二肿瘤基因特征群体;

步骤1.2、采用随机化过程对第一肿瘤基因特征群体进行初始化形成第一类初始解,具体为:将每个个体模拟成一个二进制字符串,所述二进制字符串中的一个比特位对应该个体对应的样本中所包含的一个基因特征,所述二进制字符串的长度表示该个体对应的样本所包含的基因特征总数,对第一肿瘤基因特征群体中的个体i中的第j位基因特征Xij随机产生一随机数r,r∈[0,1],若随机数r小于设定的初始化概率P则基因特征Xij被选中,否则Xij未被选中;针对每个个体,将被选中的基因特征对应的比特位设置为1,未被选中的基因特征对应的比特位设置为0,从而得到该个体对应的二进制字符串,即该个体的初始解;初始化后的第一群体形成的解作为第一类初始解;

步骤1.3、采用权重排序过程对第二肿瘤基因特征群体进行初始化形成第二类初始解,具体为:根据设定的ReliefF权重公式计算第二肿瘤基因特征群体中每个个体对应样本中所包含的各个基因特征的权重;针对每个个体,从权重取值较大的前TopN个基因特征中随机选取多个基因特征,将被选中的基因特征对应的比特位设置为1,未被选中的基因特征对应的比特位设置为0,从而得到该个体对应的二进制字符串,即该个体的初始解;初始化后的第二群体形成的解作为第二类初始解;

所述设定的ReliefF权重公式具体为:

其中,X为训练样本集,Xi∈{X1,X2,…Xm};Y为类别标签集,Y={Y1,Y2…Yn},从训练样本集中随机选择一个个体Xi的肿瘤疾病类别为Yi,W(f)为基因特征f的权重,t是迭代数目,d if f (f ,T 1 ,T 2) 表示 个 体 T 1 和 个 体 T 2 对于 基 因 特 征 f 的 区 别 ,T1=Xi,T2=Hj或Mj;Hj表示从和Xi同类的个体中寻找到的k最近邻个体,Mj表示从和Xi不同类的个体中寻找到的k最近邻个体;

步骤1.4、将所述第一类初始解和所述第二类初始解进行合并得到种群的初始最优解;

步骤2、采用二元精英花授粉算法更新所述种群,并采用设定的适应度函数计算所述种群中每个个体的适应度值,得到种群中的全局最优解;所述设定的适应度函数具体为:其中, acc表示基于选中的基因特征用KNN分类器对生

物医学数据集中的样本进行分类的分类精确度,numc表示分类正确的样本数,numi表示分类错误的样本数,n表示待计算适应度值的样本对应被选中基因特征的数目,N是待计算适应度值的样本对应所有基因特征的数目,α是分类精确度的权重,β是特征选择的权重,α+β=

1;

步骤3、根据设定的禁忌表采用禁忌搜索算法搜索所述全局最优解的邻域确定候选解,并根据所述候选解的适应度值更新所述禁忌表;

步骤4、在所述禁忌表中选取适应度值最大的个体作为精英个体,将所述精英个体替换种群中适应度值最小的个体,形成新的种群;

步骤5、以步骤2至步骤4作为一次迭代,重复进行步骤2至步骤4,直至当前迭代次数达到设定的迭代次数,输出此时的全局最优解,该全局最优解中特征值为“1”的特征即为被选中的有利于疾病分类的肿瘤基因特征。

2.根据权利要求1所述的方法,其特征在于,所述设定的初始化概率P按照式(3)和式(4)进行计算:其中, 表示第t次迭代时个体i中的第j位特征值,A表示自适应转化因子,C1和C2表示变化因子,T表示设定的迭代次数。

3.根据权利要求1所述的方法,其特征在于,步骤2中,所述采用二元精英花授粉算法更新所述种群具体包括:若采用异花授粉操作,根据式(5)对种群中的个体i进行更新:

其中, 和 分别表示第t+1次和第t次迭代时个体i

的位置;f为当前全局最优解;γ为比例因子;L(λ)是Levy飞行的步长;Γ(λ)为标准伽马函数,λ∈[1,2];S为移动步长。

4.根据权利要求3所述的方法,其特征在于,步骤2中,所述采用二元精英花授粉算法更新所述种群具体还包括:步骤2.1、若采用自花授粉操作,根据适应度值大小从种群中选取n个最优个体,从选取的n个最优个体中随机选取个体m和个体k,按照式(7)对种群中的个体i进行更新得到新个体i:其中,A是自适应转化因子, 和 分别表示第t次迭代时个体m

和个体k的位置;C1和C2表示变化因子;T表示设定的迭代次数;

步骤2.2、根据设定的适应度函数计算所述新个体i的适应度值,若所述新个体i的适应度值大于个体i更新前的适应度值,则采用所述新个体i代替更新前的个体i,否则舍弃所述新个体i;

步骤2.3、重复步骤2.1至步骤2.2,直至更新完种群中所有个体。

5.根据权利要求1所述的方法,其特征在于,所述步骤3具体为:

步骤3.1、设置初始化参数:禁忌表初始化长度为tabuLength,产生邻域解的数目为numNeighbor;

步骤3.2、选定一个初始解,所述初始解为当前迭代过程中花授粉算法中局部搜索产生的最优解;

步骤3.3、若判断获知当前迭代次数等于最大迭代次数,则结束迭代过程,将当前最优解作为最终最优解;否则,进行步骤3.4;

步骤3.4、通过当前解随机选择一特征进行单点突变从而产生邻域解,形成候选解;

步骤3.5、若判断获知所述候选解不在禁忌表中,且所述候选解的适应度值大于所述初始解的适应度值,则采用所述候选解替换所述初始解,并将所述候选解加入禁忌表,重复步骤3.3;若判断获知所述候选解在禁忌表中,重复步骤3.3。

6.根据权利要求1所述的方法,其特征在于,所述步骤4具体为:

步骤4.1、按照适应度值大小对禁忌表中的所有个体进行排序;

步骤4.2、将适应度值最大的个体存入精英种群中;

步骤4.3、在当前迭代过程结束后更新精英种群,并把所述精英种群中的精英个体替换种群中最差的个体,并进行下一次迭代。