1.一种基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述基于互联网文本描述数据的软件共性特征提取方法包括:获取互联网软件公开文本的软件描述文本、用户评分数据和下载量数据;
根据软件描述文本得到互联网公开文本的软件特征;
根据用户评分数据选择重要软件特征;
根据下载量数据挖掘面向用户的特征关联关系;
其中,
所述根据软件描述文本得到互 联网公开文本的软件特征,包括:对软件描述文本进行预处理;
构建句子相似性网络,通过下面公式度量软件描述文本中句子之间的相似性:其中,idf为逆文档频率,si和sj为两个句子,wk为句子中的第k个单词;
发现句子相似性网络中的句子社区:所述句子相似性网络为加权网络,句子相似性网络中的边代表句子之间的相似性;选择句子相似性网络中未分配社区、且附着于权重最大边的一个节点作为句子社区发现的种子节点;
通过如下公式度量节点对于一个社区的适配性:其中,Ein是社区中节点之间边的集合,Eout为社区中的节点与社区外节点相连边的集合;
确定句子社区的特征描述符:通过如下公式度量每个句子社区的熵:其中, 表示包含句子si的社区个数,句子社区的熵代表了一个句子社区与其他句子社区之间的重叠大小;
从当前还未选择特征描述符的句子社区中,选择熵最小的一个社区进行特征描述符的选择。
2.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述对软件描述文本进行预处理,包括:对软件描述文本进行去冗余处理;
对软件描述文本进行分句、分词、去停用词、词干化和降维处理。
3.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述选择熵最小的一个社区进行特征描述符的选择,包括将当前还未选择特征描述符的每个句子社区分别看作一个文档,该文档包含了该句子社区中的所有句子;
利用TF‑IDF方式计算当前熵最小的句子社区中的每个单词的TF‑IDF值;
将社区中的每个句子转换为TF‑IDF向量,选择离句子社区中心最近的句子作为该句子社区的特征描述符。
4.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据用户评分数据选择重要软件特征,包括:计算所有软件的平均用户评分,根据软件用户评分与平均用户评分之间的大小关系,将每个软件的用户评分离散化为1和0,即大于平均用户评分的软件用户评分为1,小于平均用户评分的软件用户评分则为0;
根据软公开文本的下载量数据和用户评分数据,构建软件特征和用户评分的矩阵;
基于构建的软件特征和用户评分的矩阵,利用随机逻辑回归对提取的软件特征进行打分,保留分值不为0的软件特征;
对构建的软件特征和用户评分的矩阵进行约简,利用逻辑回归学习软件特征与软件用户评分之间的关系,为软件特征配置与软件用户评分大小相关的系数;
根据每个软件特征的系数大小,选择重要软件特征,即对于一个软件特征来说,其系数越大则越优先被选择为重要软件特征。
5.如权利要求4所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据下载量数据挖掘面向用户的特征关联关系,包括:根据公开文本的下载量数据和软件特征,构建软件特征和下载量的矩阵;
根据软件特征和下载量的矩阵,利用关联规则挖据方法挖掘面向用户的特征关联关系。