1.一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,该方法包括以下步骤:S1:获取移动用户样本的上网、通话、轨迹和属性数据,对用户样本进行打标,构建训练集和测试集;
S2:利用提供出境服务的APP、电话、机构位置基站信息提取用户样本的出境特征,对特征集归一化处理;
S3:根据Fisher分剔除出境特征集中不相关的特征,获得Fisher候选特征集;
S4:设计相关性度量标准MSCC,剔除Fisher候选特征集中不相关的特征,获得MSCC候选特征集;
S5:利用近似Markov-Blanket剔除MSCC候选特征集中的冗余特征,获得最优出境特征子集;
S6:利用集成学习思想构建分类模型,完成待测样本的分类。
2.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S1中,移动用户样本数据为电信运营商提供的B域数据和O域数据。
3.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S2中,出境特征提取的方法包括:S21:撷取提供出境服务的APP数据,以域名、关键词为关联条件与移动用户上网数据进行关联匹配,得到移动用户的上网特征G={x1,x2,…,xg};
S22:采集提供出境服务的通话端口数据,以对端号码、城市电话区号为关联条件与移动用户通话数据进行关联匹配,得到移动用户的通话特征T={x1,x2,…,xt};
S23:采集提供出境服务的机构位置基站数据,以地区区域码和基站编码为关联条件与移动用户轨迹数据进行关联匹配,得到移动用户的出行特征V={x1,x2,…,xv};
S24:过滤移动用户属性数据中无关维度,得到移动用户的静态特征U={x1,x2,…,xu}。
4.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S3中,获得Fisher候选特征集的方法包括:S31:计算第s个特征的正样本、负样本和全部样本的均值向量,计算公式为:其中,m1,s、m2,s和 分别为第s个出境特征的正、负样本和全部样本的均值,N1、N2和N分别为第s个出境特征的正、负样本和全部样本的个数,X1、X2和X分别为第s个出境特征的正负样本和全部样本的集合;
S32:计算第s个出境特征变量的类内离散度Sw,s,即同类样本间的距离,计算公式为:其中,δ1,s2、δ2,s2分别为第s个出境特征变量的正、负样本的方差;
S33:计算第s个出境特征变量的类间离散度Sb,s,即不同类样本间的距离,计算公式为:S34:计算第s个出境特征的Fisher分值Fk,s,计算公式为:S35:按Fisher分值大小对各出境特征进行降序排列,设定阈值K1,保留Fisher分值大于K1的出境特征,得到Fisher候选特征集。
5.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S4中,获得MSCC候选特征集方法包括:S41:计算出境特征变量X与标签变量Y的互信息值I[X;Y],计算公式为:其中,p(x)和p(y)分别为变量X,Y的概率密度函数,p(x,y)为变量X,Y的联合概率密度分布函数;
S42:将得到的最大互信息值I[X;Y]除以log2(min(X,Y)),进行归一化处理;
S43:在不同的网格尺度下,比较归一化后的最大互信息值,将最大的互信息值作为MIC值,计算公式为:其中,B取数据总量的0.55或0.6次方;
S44:计算出境特征变量X的信息熵H(X),计算公式为:其中,n为变量X的不同取值的数量;
S45:计算标签变量Y的信息熵H(Y),计算公式为:其中,m为变量Y的不同取值的数量;
S46:计算出境特征变量X和标签变量Y的条件熵H(X|Y),计算公式为:S47:计算标签变量Y的信息增益IG(X|Y),计算公式为:IG(X|Y)=H(X)-H(X|Y)
S48:计算出境特征变量X的对称不确定性SU(X,Y),计算公式为:S49:定义相关性度量系数MSCC,计算公式为:
S410:计算Fisher候选特征集中的各出境特征的MSCC值,设定阈值K2,剔除小于K2的特征,并对剩余的特征降序排列,得到MSCC候选特征集。
6.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S5中,获得最优出境特征子集的方法包括:S51:初始化特征集合
S52:将MSCC候选特征集赋给特征集合F;
S53:选择F中MSCC值最大的特征x*作为主特征;
S54:更新特征集合:F=F-x*,F*=F*+x*;
S55:对于F中所有特征x,依次计算出境特征x与x*的MSCC(x,x*)、出境特征x与标签Y的MSCC(x,Y),当MSCC(x,x*)>MSCC(x,Y),从F中剔除该特征;
S56:当 时,重复步骤S53~S55;
S57:当 时,输出最优出境特征子集F*。
7.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S5中,近似Markov-Blanket的判断条件为:MSCC(xi,Y)>MSCC(xj,Y)并且MSCC(xi,xj)>MSCC(xj,Y)其中,xi和xj为两个不同的特征,Y为标签变量,满足上述公式,则xi是xj的Markov-Blanket。
8.根据权利要求1所述的一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法,其特征在于,所述步骤S6中,分类模型的构建方法包括:S61:分类模型设计为两层结构,第一层分别采用KNN、LightGBM、逻辑回归、AdaBoost算法构建基分类器,第二层采用随机森林算法构建次级分类器;
S62:采用交叉验证的方式,四个基分类器分别对最优特征集合进行学习和预测,最终得到基分类器对训练集的预测结果T1,对测试集的预测结果T2;
S63:将T1作为训练集,T2作为测试集,然后输入次级分类器中进行学习和预测,得到最终的预测结果。