1.融合多元上下文信息的个性化地点推荐方法,其特征在于,结合两类VGI数据,实现城市功能区自动识别,包括以下四个步骤:步骤1、从Flickr网站获取地理标签照片数据,并对地理标签照片数据进行预处理;
步骤2、对步骤1中进行预处理后的地理标签照片数据进行地理标签照片多元上下文信息挖掘,挖掘的信息包括地点流行度、地点流行度波动、用户空间距离、协同过滤以及文本相似度上下文信息;
步骤3、利用排序学习算法框架,融合步骤2中挖掘出的多元上下文信息构建个性化地点推荐模型;
步骤4、根据步骤3中得到的模型生成推荐结果及结果评价。
2.根据权利要求1所述的融合多元上下文信息的个性化地点推荐方法,其特征在于,步骤1中具体包括以下步骤:S1、从Flickr网站下载研究区地理标签照片数据;
S2、采用均值漂移聚类算法对地理标签照片数据进行聚类;
S3、采用以下准则对数据用户进行过滤:该用户至少去过6个地点;用户在每个地点拍摄的照片平均数量不少于2张;照片文本评论中至少含有3个文本标签。
3.根据权利要求1所述的融合多元上下文信息的个性化地点推荐方法,其特征在于,步骤2中具体包括以下步骤:S1、地点流行度评估
采用如下公式计算地点流行度:
式中,SP(j)为地点j的流行度,Uj为访问过地点j的用户集合, 为用户u在地点j拍摄的照片数量,使用log(x+1)对每个用户的照片数量进行加权;
S2、地点流行度波动评估
计算方法如下:首先将时间按照月份进行划分,统计该地点在各个月份的照片数量组成向量,地点j的流行度波动向量表示为:式中,SPF(j)为地点j的流行度波动向量, 为地点j在月份t的照片数量,最后,对向量SPF(j)进行归一化,得到:
地点j在月份t的流行度值SPF(j,t)用 表示;
S3、空间距离评估
空间距离评估研究出行距离对用户地点选择的影响,对全体用户出行距离进行幂律分布建模的基础上再一次对单个用户的历史访问地点建模;
首先,利用幂律分布对全体用户相邻签到地点的距离进行建模,如以下公式所示,P(dis)表示用户访问dis千米之外的地点的可能性,α、k为幂律分布函数的两个参数;
k
P(dis)=α·dis
对上述公式两边同取对数操作,可得到如下线性方程:log(P(dis))=log(α)+klog(dis)以上线性方程采用最小二乘准则进行回归拟合,最终拟合后得到上述公式中的α、k参数;
将P(dis)作为先验概率,在此基础上再对单个用户进行建模,对于当前位于地点i的用户,以及给定距离为dis(i,j)的地点j,将用户访问地点j的意愿建模为用户访问该地点的可能性,计算公式如下:其中,S为当前用户访问过的历史地点;
S4、基于用户的协同过滤评估
(1)用户相似度计算
采用如下公式计算用户相似度:
式中,Suv为用户u、v共同签到过的地点集,Nuj、Nvj分别表示用户u、v在地点j拍摄过的照片数量, 分别表示用户u、v每次出行时在同一个地点拍摄过的最多照片数量,Cuj、Cvj分别表示用户u、v去过地点j的次数,Cj表示用户u或v去过地点j的次数, 表示全体用户访问地点j的平均次数;
(2)协同过滤计算
在计算出用户间相似度的基础上,对于给定的用户u,选取top-N个相似的用户组成用户集合U,用户u与地点j的协同过滤评分即用如下公式表示:其中, 表示用户u在出行地点中拍摄的最多照片数量, 可以体现用户u对地点j的感兴趣程度;
S5、文本相似度评估
(1)对于每个地点,将在该地点拍摄照片相关的文本标签与评论组合成一个文档,并利用向量空间模型进行分析,对于给定数据集中的M个文本标签和N个地点,由向量空间模型产生一个词频逆文档频率矩阵TM×N,矩阵中的每个Tij值代表文本标签i在地点j的tfidf值,定义为词频与逆文档频率的乘积:Tij=tfij·idfij
式中,tfij为原始词频,即文本标签i在地点j出现的次数;idfij为逆文档频率,通过如下公式计算:其中dfij为包含文本标签i的地点数量,根据tfidf矩阵,将每个地点的文本标签按tfidf值从大到小排列,选出前K个文本标签作为该地点的代表性文本标签:(2)文本相似度计算
根据用户u的照片序列,将照片序列中的所有相关文本作为一个文档,并用向量空间模型进行分析,得到用户文档向量:对于地点j用其代表性文本标签tj的tfidf值组成地点文档向量:用户u与地点j之间的文本相似度利用余弦距离进行计算:
4.根据权利要求1所述的融合多元上下文信息的个性化地点推荐方法,其特征在于,步骤3中具体包括以下步骤:S1、个性化地点推荐问题转化
通过上下文信息的挖掘得到不同因素对地点推荐的评估值可组成“用户-地点”偏好向量,向量中的每一维都代表用户对相应地点的偏好信息,在月份t,给定当前位于地点i的用户u,则用户u对候选地点j的偏好向量表示为:在地点推荐系统中,用户集合U={u1,u2,...,un},与地点集合S={s1,s2,...,sm},个性化地点推荐问题描述为:对于任何一个用户ui∈U,从地点集合S中找出一个用户ui偏好的地点子集,并将其按偏好程度大小排序后推荐给用户,利用排序函数 将个性化地点推荐问题转化为排序学习问题;
S2、“用户-地点”偏好评估
采用如下公式计算用户对地点的偏好程度:
式中,C(i,j)为用户i对地点j的偏好程度,Uj表示去过地点j的用户集合,Ni为用户i一共拍摄过的照片数量,|Uj|为去过地点j的用户数量;
S3、基于RankSVM的地点推荐
通过上下文信息的挖掘得到“用户-地点”偏好向量集合 根据用户对地点的偏好程度,将 作为正样本, 作为负样本,最后,用SVM算法对正负样本进行分类,得到的模型用于“用户-地点”偏好的排序;
RankSVM的优化问题描述为:
ξi≥0,i=1,...,m
式中,w为待学习的权重向量,ξ为松弛因子,yi为类别信息,即表征了 与 的相关性大小,该优化问题与SVM的优化问题完全一致,直接用SVM进行求解;在学习到权重向量w后,将的大小作为用户u对地点Si偏好程度的评判依据,最终完成对地点的排序。
5.根据权利要求1所述的融合多元上下文信息的个性化地点推荐方法,其特征在于,步骤5中具体包括以下步骤:S1、根据步骤3中模型,选取预测值排名前n个性化地点进行推荐,生成推荐结果;
S2、采用留一法(Leave-One-Out,LOO)作为评估方法:抽取实验用户的最后一次出行地点作为测试数据,其余数据作为训练数据,当最终模型给出的相关性最高的地点与用户访问的最后一个地点相同时则认为针对当前用户模型给出的推荐结果是正确的,否则即为错误的,推荐结果的评价指标为平均准确率均值和召回率。
6.一种存储设备,其特征在于,所述存储设备存储指令及数据用于实现权利要求1~5所述的任意融合多元上下文信息的个性化地点推荐方法。
7.一种融合多元上下文信息的个性化地点推荐设备,其特征在于,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求1~5所述的任意融合多元上下文信息的个性化地点推荐方法。