知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于互联网文本描述数据的软件共性特征提取方法

￥38400

专利号： 2018116253408

申请人：河南大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于互联网文本描述数据的软件共性特征提取方法，其特征在于，所述基于互联网文本描述数据的软件共性特征提取方法包括：获取互联网软件公开文本的软件描述文本、用户评分数据和下载量数据；

根据软件描述文本得到互联网公开文本的软件特征；

根据用户评分数据选择重要软件特征；

根据下载量数据挖掘面向用户的特征关联关系；

其中，

所述根据软件描述文本得到互联网公开文本的软件特征，包括：对软件描述文本进行预处理；

构建句子相似性网络，通过下面公式度量软件描述文本中句子之间的相似性：其中，idf为逆文档频率，si和sj为两个句子，wk为句子中的第k个单词；

发现句子相似性网络中的句子社区：所述句子相似性网络为加权网络，句子相似性网络中的边代表句子之间的相似性；选择句子相似性网络中未分配社区、且附着于权重最大边的一个节点作为句子社区发现的种子节点；

通过如下公式度量节点对于一个社区的适配性：其中，Ein是社区中节点之间边的集合，Eout为社区中的节点与社区外节点相连边的集合；

确定句子社区的特征描述符：通过如下公式度量每个句子社区的熵：其中，表示包含句子si的社区个数，句子社区的熵代表了一个句子社区与其他句子社区之间的重叠大小；

从当前还未选择特征描述符的句子社区中，选择熵最小的一个社区进行特征描述符的选择。

2.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法，其特征在于，所述对软件描述文本进行预处理，包括：对软件描述文本进行去冗余处理；

对软件描述文本进行分句、分词、去停用词、词干化和降维处理。

3.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法，其特征在于，所述选择熵最小的一个社区进行特征描述符的选择，包括将当前还未选择特征描述符的每个句子社区分别看作一个文档，该文档包含了该句子社区中的所有句子；

利用TF‑IDF方式计算当前熵最小的句子社区中的每个单词的TF‑IDF值；

将社区中的每个句子转换为TF‑IDF向量，选择离句子社区中心最近的句子作为该句子社区的特征描述符。

4.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法，其特征在于，所述根据用户评分数据选择重要软件特征，包括：计算所有软件的平均用户评分，根据软件用户评分与平均用户评分之间的大小关系，将每个软件的用户评分离散化为1和0，即大于平均用户评分的软件用户评分为1，小于平均用户评分的软件用户评分则为0；

根据软公开文本的下载量数据和用户评分数据，构建软件特征和用户评分的矩阵；

基于构建的软件特征和用户评分的矩阵，利用随机逻辑回归对提取的软件特征进行打分，保留分值不为0的软件特征；

对构建的软件特征和用户评分的矩阵进行约简，利用逻辑回归学习软件特征与软件用户评分之间的关系，为软件特征配置与软件用户评分大小相关的系数；

根据每个软件特征的系数大小，选择重要软件特征，即对于一个软件特征来说，其系数越大则越优先被选择为重要软件特征。

5.如权利要求4所述的基于互联网文本描述数据的软件共性特征提取方法，其特征在于，所述根据下载量数据挖掘面向用户的特征关联关系，包括：根据公开文本的下载量数据和软件特征，构建软件特征和下载量的矩阵；

根据软件特征和下载量的矩阵，利用关联规则挖据方法挖掘面向用户的特征关联关系。