欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103430077
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于文件知识图谱的开源软件社区专家推荐方法,其特征在于:所述推荐方法包括以下步骤:S1:针对开源软件社区中的某个项目,根据文件路径计算两两文件路径之间的相似度,构建项目文件关系网络;

S2:对项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征;

S3:将开发者本人的历史编辑文件特征,与其联系过的专家的历史编辑文件特征整合为该开发者的已知开发行为特征;

S4:根据开发者的历史已知特征,训练随机森林模型,用于推荐其开发过程中需要联系的专家;

所述步骤S1中,计算两两文件路径之间的相似度,文件1与文件2在某个项目中的绝对路径分别为:f1=“src/com/android/settings/LocationSettings.java”,f2=“src/com/android/settings/Utils.java”,则文件1与文件2的路径相似度为:其中StringComparison(f1,f2)为文件1与文件2的绝对路径中的相同部分个数;max(length(f1),length(f2))为文件1与文件2的绝对路径长度的最大值;

所述步骤S1中,构建项目文件关系网络,项目文件关系网络G(V,E,W),其中V表示文件作为网络节点,E表示两两文件的关系连边,W表示两两文件的路径相似度权重;

所述步骤S2中,对步骤S1得到的项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征,node2vec算法提取特征过程如下:S2-1:根据项目文件关系网络G(V,E,W),定义每个节点随机游走的规则,假设上一时刻在节点t,现在随机游走到节点v,则下一步从节点v出发,会游走到节点v的其中一个邻居节点v′∈{t,x1,x2,x3},游走概率πvv′定义为:πvv′=αpq(t,v′)·wvv′

其中dtv′指的是网络中节点t与节点v′的最短权重路径长度,p和q分别是控制随机游走返回到上一时刻的节点、控制随机游走选择深度遍历或广度遍历的常数项因子,wvv′指的是项目文件关系网络G(V,E,W)中,节点v与节点v′之间的相似度权重;

S2-2:根据节点随机游走的规则,得到网络G′(V,E,π),对网络G′中所有节点进行π权重概率、总步长l的随机游走,每次将游走记录放入walk列表中,循环设定次数;

S2-3:针对walk列表中所有位置上的节点,用随机梯度下降法最优化函数T为walk列表的长度,c为窗口大小,最终得到每个文件节点v的知识图谱特征:n维向量Rv∈R1×n;

所述步骤S3中,将开发者的所有邮件联系数据按时间先后顺序排序,取前一半时间的数据作为训练数据,后一半时间的数据作为测试数据,针对每条开发者的邮件联系数据,将其当时联系的专家作为标签;定义:RA∈R1×n,为该开发者在此邮件联系时间之前的最近时刻编辑的文件集合的知识图谱特征的向量和;RB∈R1×n,为该开发者在此邮件联系时间之前的所有历史编辑的文件集合的知识图谱特征的向量和;RC∈R1×n,为该开发者在此邮件联系时间之前的最近时刻联系过的专家在最近一次编辑的文件集合的知识图谱特征的向量和;

RD∈R1×n,为该开发者在此邮件联系时间之前的最近时刻联系过的专家的历史编辑文件集合的知识图谱特征的向量和;整合这4个向量特征(RA,RB,RC,RD)∈R1×4n,作为该开发者的历史已知特征;

所述步骤S4中,根据开发者的历史已知特征(RA,RB,RC,RD)∈R1×4n以及相应的专家标签数据,使用训练数据构建随机森林模型,用于推荐其在测试数据里的开发过程中需要联系的专家。