欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017108202715
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于评论挖掘与密度聚类的双层图结构推荐方法,其特征在于,包括以下步骤:

1)读取评论数据集,通过特征提取与情感分析,提取物品的特征用于聚类,过程如下:

1.1首先对评论数据做预处理,预处理包括分词、词性标注和过滤停用词;

1.2首先挑选出现频率大于阈值的名词项作为频繁项,构建部分特征列表,借助Word2Vec工具判断每个频繁项与特征列表中特征的相似度,挑选出相似度大于阈值的频繁项作为新的特征;

1.3挑选出评论中含有特征的句子,借助SentiWordNet情感词典判断每个句子的情感倾向,进而得到每条评论的情感倾向;对于每个物品的每个特征,计算好评的比例,作为该物品该 特征下的值,以此将每个物品表示为向量,用于聚类;

2)聚类中心快速确定的密度聚类算法,过程如下:

2.1从原始数据集中获取每个物品的标签信息,通过用户物品间的购买关系,将物品的标签映射为用户的标签,根据用户标签判断两用户间的相似性;

2.1对于任意数据点i,通过公式ρi=∑ξ(dij-dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的局部密度ρi和与其他数据点间最小距离δi,其中当dij<dc时,ξ=1,否则ξ=0,dij和dc分别表示数据点i到j的距离和临界距离dc,再根据公式γi=ρi*δi计算出数据点的γi,变量γi被用于寻找聚类中心;

2.2根据每个数据点的γ值做出关于γ的密度分布图,计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2;

2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间;

2.4根据划定的置信区间筛选出落于置信区间外的奇异点,设定边界值Wide为μ+5σ,若数据点i的γi>Wide,则认为该数据点为奇异点并定义为聚类中心;

2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果;

2.6当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,设计了一个Fitness函数作为评价指标:Fitness由两部分组成:

式中m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数;

Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离,根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令:对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好;

2.7采用改进爬山算法选取最优dc,设定percent的初始值与迭代半径r,对percent,percent±r三点执行改进爬山算法,更新percent的值使得此时Fitness最大,并减少迭代半径;若迭代半径为0,则跳至2.8;

2.8输出最优dc以及最优dc时的聚类结果;

3)基于图结构的推荐,过程如下:

3.1根据用户和物品的聚类结果,将簇视为结点构建二分图网络,两节点间的连边权重正比于用户簇与物品簇之间的评分记录个数;依据能量流动的思想,得到所有物品簇在能量流动后获得的资源值并完成面向簇的个性化推荐;

3.2挑选出目标用户簇和能量值最高的n个物品簇中的所有用户和物品,构建二分图网络,其中每个结点表示一个用户或物品,它们间的权重由评分的大小决定;依据能量流动的思想,得到所有物品在能量流动后获得的资源值并完成面向目标用户的个性化推荐;

3.3采用时间衰减函数 使推荐结果更满足用户最近的喜好,

在步骤3.2面向目标用户的个性化中,节点间连边的权重由评分与衰减函数f(t)的乘积共同定义,其中t为当前时间,tip为签到记录的时间,T0为临界时间,当间隔时间大于临界时,函数值将快速下降;

3.4输出能量值最高的n个物品作为推荐结果。