知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于XGBoost的自承认技术债务多分类方法

￥50300

专利号： 2021100812682

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于XGBoost的自承认技术债务多分类方法，其特征在于包括如下步骤：步骤(1)从数据集中获取代码注释集合S＝(S1，S2，...，Sn)，n为所有类的代码注释数量，将其中每个样本表示成Si＝，i＝1，2，...，n，其中id表示代码注释的编号，comment表示代码注释的文本信息，LB表示代码注释的标签，即技术债务的类型；

步骤(2)对每个样本Si中的comment进行预处理；

首先利用字符串全匹配和余弦相似度计算方法过滤掉原数据集中完全相同的样本；

然后，删除代码注释中包含的历史版本记录；

最后，删除代码注释中的噪音信息，所述噪音信息包含数字、标点、URL、源代码、停用词；将所有单词转换为小写字母形式；

经过处理后每个样本为Si＝，其中preComment表示预处理后代码注释的文本信息；

步骤(3)对预处理后代码注释的文本信息进行数据增强；

采用EDA方法中随机交换和随机打乱策略对需求技术债务和缺陷技术债务的代码注释的文本信息进行增强；

步骤(4)使用卡方统计方法计算样本中每个特征的权重，并根据权重值对特征按从大到小进行排序，选择其中权重最大的s个特征；

步骤(5)使用countvectorizer方法将所有代码注释的文本信息表示成词频矩阵FMn×s，其中元素FM[i][j]表示第i个代码注释的文本信息中第j个单词的出现次数，其中i＝1，

2，...，n，j＝1，2，...，s；

步骤(7)构建基于XGBoost的分类器模型；

首先，根据词频矩阵FM，将代码注释集合中样本Si表示为Si＝(xi，yi)，xi＝{FM[i][1]，FM[i][2]，...，FM[i][s]}，yi为对应的类标签；