1.一种基于大数据的个性化新闻推荐方法,其特征在于,包括以下步骤:获取历史数据,对数据集进行预处理操作;
将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;
对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;
根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;
根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。
2.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,对数据集进行预处理,具体包括以下步骤:
对异常数据进行清洗,包括删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;
为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。
3.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,用户属性特征至少包括用户的年龄、性别、职业、学历、家乡、用户等级的one‑hot特征;用户时序特征用户至少包括最近1、2、3、7、15、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数和停留时长的最大值、最小值、均值、中位数、总和;新闻属性特征至少包括新闻的类别、来源的one‑hot特征,以及新闻浏览数、点赞数、评论数、收藏数、转发数、举报数;上下文属性特征至少包括户所处地理位置、天气、用户所用的产品设备、产品版本号的one‑hot特征;新闻标题语义特征为将新闻标题输入到XLNet模型来提取新闻标题的语义向量,用CNN模型对语义向量卷积池化来自动提取特征,并输入到全连接层来提取的高阶特征。
4.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,根据特征的重要性对特征进行选择包括:
使用LightGBM训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;
使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练,一共训练至少m次;
结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型,获取最终的重要性得分。
5.根据权利要求4所述的一种基于大数据的个性化新闻推荐方法,其特征在于,特征k最终的重要性得分表示为:
其中,wij表示第i轮中第j个特征的重要性。
6.根据权利要求5所述的一种基于大数据的个性化新闻推荐方法,其特征在于,利用结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型当前的AUC值对特征k最终的重要性得分进行加权,加权后的特征k最终的重要性得分表示为:其中,Wk表示加权后的特征k最终的重要性得分,AUCi表示第i轮模型的AUC值。
7.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,根据选择的特征建立深度学习模型并进行模型融合操作具体包括:把用户时序特征构造成一个维度为(8,11)的二维向量,其中8是指时序特征的天数,11是指时序特征的个数,后面接入双向的LSTM层来提取特征的时序信息,得到时序特征;
为离散型特征随机初始化特征嵌入矩阵,通过embedding层得到特征向量,然后分别用长度为2、3、4的卷积核做卷积和池化操作,再把得到的结果拼接起来得到离散特征;
将特征取值个数超过10000的作为连续特征,把时序特征、离散特征和连续特征拼接起来输入到3层的DNN模型中,每一层的神经元个数分别为256、128、64,在该神经网络中的输出层得到点击率。
8.一种基于大数据的个性化新闻推荐系统,其特征在于,所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块,其中:特征获取模块,用于从获取的原始数据中获取用户或者新闻的特征;
特征预处理模块,用于对特征进行预处理,包括对异常数据进行清洗并在清洗后的数据中加入扰动;
特征工程构建模块,用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;
特征选择模块,用于根据LightGBM训练模型和Embedding+Attention+Dense神经网络训练模型分别获取特征的重要性,并根据获取的重要性计算特征最终的重要性,并选择该最终重要性最大的前50%的特征作为选择的特征;
特征融合模块,用于根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。