1.一种基于改进PageRank算法的用户偏好挖掘方法,其特征在于:包括如下步骤:步骤S1:检查输入数据格式:将用户上网日志数据按照产生的时间顺序,解析为兴趣点集合[P1,P2,P3……Pm]和上网时长集合[T1,T2,T3……Tm],上网日志数据中的一条URL对应一个兴趣点以及上网时长;
步骤S2:分析兴趣点集合,获取用户上网过程中访问不同兴趣点的频次fi,对每个兴趣点的频次利用最大最小值归一化方法进行归一化,得到兴趣点的访问频次参数Fi;
步骤S3:分析兴趣点集合,获取用户上网过程中不同兴趣点的自转移参数Ki,自转移是指用户从兴趣点A转移到兴趣点A,即用户在访问兴趣点A时发生了一次自转移;
步骤S4:分析上网时长集合,统计用户访问不同兴趣点的时长gi,对每个兴趣点的时长利用最大最小值归一化方法进行归一化,得到兴趣点的访问时长参数Gi;
步骤S5:利用兴趣点的访问频次参数Fi、兴趣点的访问时长参数Gi、兴趣点的自转移参数Ki,计算兴趣点关注度UA值;
步骤S6:兴趣点IR值的初始化:以兴趣点Pi为例,设置链接值IR_L(Pi)的初始值为1/N,其中N表示上网过程中不同兴趣点的个数,并计算兴趣点IR值,其计算公式如下:IR(Pi)=δ×IR_L(Pi)+ε×UA(Pi)其中δ和ε为设置的参数,IR_L(Pi)为步骤S7所述的兴趣点链接值,UA(Pi)为步骤S5所述的兴趣点关注度;
步骤S7:兴趣点IR值的迭代:更新兴趣点链接值IR_L(Pi),公式如下:其中d是阻尼系数,Z(Pi)表示转移到兴趣点Pi的兴趣点集合,Link(Pj)表示集合Z(Pi)的大小;
并依据步骤S6的公式重新计算兴趣点IR值;
步骤S8:对比迭代前后两次IR值,判断是否满足迭代终止条件,如满足条件则输出不同兴趣点的IR值,不满足则继续迭代;
步骤S9:按照兴趣点的IR值对兴趣点排序,选取前Top‑K个兴趣点作为用户的偏好。
2.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法,其特征在于:步骤S3所述的自转移参数Ki,计算公式如下:其中α为设置的参数,x表示兴趣点Pi最大连续自转移次数。
3.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法,其特征在于:步骤S5所述的UA值,其计算公式如下:UA(Pi)=max(Fi,Gi,Ki)其中Fi为步骤S2所述的兴趣点访问频次参数,Gi为步骤S4所述的兴趣点访问时长参数,Ki为步骤S3所述的兴趣点自转移参数。
4.根据权利要求1所述的基于改进PageRank算法的用户偏好挖掘方法,其特征在于:步骤S8中迭代终止条件为:
1)迭代前后每个兴趣点的IR值误差小于自定义误差阈值б;
2)迭代次数超过了自定义的迭代次数阈值。