1.一种基于节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述预测方法包括以下步骤:
S1:数据收集与处理,爬取在线社交网络中的用户数据,包括用户的好友列表、行为和属性数据;
S2:将S1中收集的用户数据构成网络,再通过node2vec将每一个节点都嵌入到欧式空间中,得到代表用户社交网络结构特征的嵌入向量;
S3:对用户的行为和已知属性数据进行处理,形成代表用户除社交网络结构特征外特征的向量;
S4:将用户的代表结构特征的向量和其他特征的向量进行拼接,得到最终的代表用户特征的向量;
S5:划定训练集和测试集,通过训练逻辑斯特回归分类器对用户的缺失属性进行预测。
2.如权利要求1所述的一种基于节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述步骤S5中,当训练停止或者模型收敛后,使用测试集中的样本对模型精度进行检验。
3.如权利要求1或2所述的一种基于节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述步骤S1中,用户的行为数据包括微博中的点赞、转发、评论和点评网站中的评论、打分、消费行为;用户的属性数据包括性别、居住地和职业。
4.如权利要求1或2所述的一种基于节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述步骤S2中,使用node2vec算法对在线社交网络中的节点进行嵌入之前,需要确定算法中的返回概率参数p,离开概率参数q和嵌入向量维度N;其中参数p控制的是node2vec在随机游走时返回原节点的概率,注重的是网络中的局部特征;参数q控制的是随机游走时跳转带其他节点的概率,注重的是网络中的全局特征。
5.如权利要求4所述的一种基于节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述步骤S3和S4中,对于代表用户其他特征的向量构造需要将选取的用户行为数据和已知的属性数据进行归一化后按照固定的顺序进行排列;得到用户的行为特征向量和属性特征向量之后,结合社交网络结构特征向量,按照固定的顺序进行排列、拼接,即得到代表用户的嵌入向量。
6.如权利要求1或2所述的一种节点嵌入的在线社交网络用户缺失属性预测方法,其特征在于:所述步骤S5中,使用逻辑斯特回归模型对嵌入向量进行分类,从而实现用户缺失属性预测;其中,yu为模型输出,代表用户u具有该属性的概率,若yu>0.5,则用户u具有该属性,反之则不具有该属性;hu=axu+b,a和b都为模型中需要训练的参数,xu为代表用户u特征的向量,若目标缺失属性具有多个值,则需要对各个属性值进行二值化,通过多次分类从而实现用户缺失属性预测,在进行模型训练之前,需要设定最大训练迭代次数和最大容忍误差,得到训练完成的模型后,将其应用于测试集中的样本,预测精度作为模型的性能指标。