1.一种用于计算机软件开发数据的管理方法,其特征在于,该方法包括以下步骤:
将软件开发数据构成的字符串记为待处理字符串,根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标;
根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标;根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标;
利用分类度量指标对所有待处理字符串进行分类,得到每个类别对应的字符串数据集;
所述根据任意两个待处理字符串中的重复字符的分布情况得到任意两个待处理字符串的第一特征指标具体为:对于任意两个待处理字符串,将其分别记为第一字符串和第二字符串,获取第一字符串和第二字符串对应的重复字符串,计算该重复字符串的长度与第一字符串的长度的比值得到第一比值,同时计算该重复字符串的长度与第二字符串的长度的比值得到第二比值;
基于重复字符串中每相邻两个字符构成的组合在第一字符串中出现的频率,计算第一字符串的信息熵得到第一信息熵;基于重复字符串中每相邻两个字符构成的组合在第二字符串中出现的频率,计算第二字符串的信息熵得到第二信息熵;以第一比值与第一信息熵的乘积作为第一乘积,以第二比值与第二信息熵的乘积作为第二乘积,获取第二乘积与第三预设值的和值记为第一和值,以第一乘积与第一和值的比值作为第一字符串和第二字符串对应的第一特征指标;
所述根据任意两个待处理字符串中的重复字符的位置得到任意两个待处理字符串的第二特征指标具体为:在第一字符串中获取任意相邻两个重复字符之间的距离,计算第一字符串中所有相邻两个重复字符之间的距离的方差;在第二字符串中获取任意相邻两个重复字符之间的距离,计算第二字符串中所有相邻两个重复字符之间的距离的方差,以两个方差的均值作为第一字符串和第二字符串对应的第二特征指标。
2.根据权利要求1所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述根据任意两个待处理字符串的第一特征指标和第二特征指标得到任意两个待处理字符串的分类度量指标具体为:对于任意两个待处理字符串,获取第一预设值与第一特征指标之间的差值的绝对值,计算第二预设值与第二特征指标之间的和值,以所述差值的绝对值与所述和值之间的乘积的负相关映射值作为任意两个待处理字符串之间的分类度量指标。
3.根据权利要求1所述的一种用于计算机软件开发数据的管理方法,其特征在于,在得到每个类别对应的字符串数据集之后,所述方法还包括:根据每个字符串数据集中字符的分布情况与移动特征,计算字符串数据集中字符的压缩必要性;利用字符的压缩必要性确定待压缩字符;
将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集,根据每个字符串数据集中所有发生移动的待压缩字符的移动距离,得到字符串数据集对应的平均移动长度;
根据平均移动长度获得对优选数据集进行压缩时的优选窗口长度,利用LZ77压缩算法根据优选窗口长度对每个优选数据集进行压缩,得到待压缩字符的压缩数据;将待压缩字符的压缩数据进行存储。
4.根据权利要求3所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述根据每个字符串数据集中字符的分布情况与移动特征,计算字符串数据集中字符的压缩必要性,具体包括:根据每个字符串数据集中字符的分布情况得到字符串数据集中字符的孤立度,根据每个字符串数据集中字符的移动特征得到字符串数据集中字符的移动代价指标,计算所述孤立度与移动代价指标之间的乘积,对所述乘积进行负相关映射得到字符串数据集中字符的压缩必要性。
5.根据权利要求4所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述孤立度的获取方法具体为:对于任意一个字符串数据集,将该字符串数据集中的任意一个字符记为选定字符;
获取字符串数据集中每任意两个待处理字符串之间重复的字符构成重复字符串,获取选定字符在字符串数据集中对应的所有重复字符串中出现的次数;
对于选定字符存在的任意一个待处理字符串,将该待处理字符串中的选定字符进行删除得到待处理字符串的特征字符串,计算待处理字符串的信息熵与特征字符串的信息熵之间的比值;将字符串数据集中所有待处理字符串对应的比值的和值与所述次数的比值作为字符串数据集的选定字符的孤立度。
6.根据权利要求5所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述移动代价指标的获取方法具体为:将字符串数据集中的选定字符所在的任意一个待处理字符串记为目标字符串,获取字符串数据集中存在的所有重复字符串的平均长度;
利用LZ77算法对目标字符串进行预编码,将选定字符按照设定步长向前向缓冲区进行移动,直至移动后选定字符所在位置与选定字符未移动前所在位置之间的字符长度与所述平均长度相等时,或者移动后选定字符为第一个待编码字符时停止;
每移动一次获取前向缓冲区包含选定字符的字符串与字典区域的字符串重复的长度,将所述重复的长度与预设的窗口长度之间的比值记为特征系数,计算选定字符所有次移动后对应的特征系数的和值得到选定字符在目标字符串中的移动特征值;
计算选定字符在字符串数据集中所有待处理字符串的移动特征值的和值,对移动特征值的和值进行负相关映射得到选定字符在字符串数据集中的移动代价指标。
7.根据权利要求3所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述第二设定规则具体为:利用LZ77算法对字符串数据集中的字符串进行预编码,基于字典窗口中的字符串获取理想字符串,将前向缓冲区中待压缩字符向设定方向移动后,前向缓冲区中的字符串与理想字符串完全相同;
所述将每个字符串数据集中待压缩字符按照第二设定规则进行移动得到优选数据集具体为:将字符串数据集中能够满足第二设定规则的待压缩字符进行移动,将移动后得到的所有待压缩字符构成的数据集记为优选数据集。
8.根据权利要求3所述的一种用于计算机软件开发数据的管理方法,其特征在于,所述利用字符的压缩必要性确定待压缩字符具体为:将压缩必要性大于预设阈值的字符记为待压缩字符;相应地,将压缩必要性小于或等于预设阈值的字符记为非压缩字符;
所述一种用于计算机软件开发数据的管理方法还包括:对所述非压缩字符按照第一设定规则进行标记得到非压缩字符的压缩数据;将所述非压缩字符的压缩数据进行存储;所述第一设定规则与所述第二设定规则不同。