1.一种用于计算机数据存储的重复数据识别方法,其特征在于,所述方法包括:采集计算机存储数据,对所述计算机存储数据进行进制转换,生成待处理编码,所述待处理编码组成待处理编码段;对所述待处理编码段内的所述待处理编码进行频率分析,获得所述待处理编码的重复程度,根据所述重复程度对所述待处理编码进行聚类处理,生成至少一个待处理编码点簇;
根据所述待处理编码点簇内所有所述待处理编码的所述重复程度,从所述待处理编码点簇中确定目标点簇,将所述目标点簇内的所述待处理编码作为目标编码,遍历所述待处理编码段,对所述待处理编码段中的所述目标编码进行标记处理,得到所述目标编码的标记信息,其中,标记信息,为目标编码在待处理编码段内的标记数量;
根据所述待处理编码的总数量和所述标记信息,将所述待处理编码段划分为至少两个编码识别子段,根据所述编码识别子段内所述目标编码的频率确定所述编码识别子段的识别优先级;
根据所述标记信息和所述重复程度,对所述目标编码进行编码组合,得到待识别编码段,根据所述编码识别子段的所述识别优先级对所述待识别编码段进行识别,确定重复编码段,将所述重复编码段所对应的所述计算机存储数据作为重复数据;
所述根据所述标记信息和所述重复程度,对所述目标编码进行编码组合,得到待识别编码段,包括:根据所述标记信息,确定与所述目标编码相邻的其他编码为邻域编码;
确定所述邻域编码的所述重复程度和所述目标编码的所述重复程度的差异为重复程度差异;
根据所述重复程度差异,判断所述邻域编码和所述目标编码是否满足预设组合条件,若不满足,则直接将所述目标编码作为所述待识别编码段,若满足,则将所述邻域编码和所述目标编码组合作为新的目标编码,确定与所述新的目标编码相邻的新的邻域编码,并将所述新的目标编码和所述新的邻域编码进行组合,直至所述新的目标编码和所述新的邻域编码不满足所述预设组合条件时结束组合,将结束组合后得到的所述目标编码作为所述待识别编码段。
2.如权利要求1所述的方法,其特征在于,所述根据所述待处理编码的总数量和所述标记信息,将所述待处理编码段划分为至少两个编码识别子段,包括:根据所述待处理编码的总数量,将所述待处理编码段平均划分为两个初始子段;
根据所述标记信息判断所述初始子段是否满足预设划分条件,若不满足,则直接将所述初始子段作为所述编码识别子段;若满足,则将所述初始子段作为新的待处理编码段进行平均划分,直至平均划分后得到的新的初始子段不满足所述预设划分条件结束平均划分,并将结束划分后得到的新的初始子段作为所述编码识别子段。
3.如权利要求2所述的方法,其特征在于,所述根据所述标记信息判断所述初始子段是否满足预设划分条件,包括:分别确定所述标记数量最多的两个所述初始子段内的所述标记数量为子段标记数量;
计算所述子段标记数量的差异作为编码数量差异,计算所述编码数量差异与所述标记数量的比值作为编码数量差异比;
在所述编码数量差异比大于预设差异比阈值时,确定所述初始子段满足所述预设划分条件;
在所述编码数量差异比小于等于所述预设差异比阈值时,确定所述初始子段不满足所述预设划分条件。
4.如权利要求1所述的方法,其特征在于,所述根据所述重复程度差异,判断所述邻域编码和所述目标编码是否满足预设组合条件,包括:在所述目标编码和所述的邻域编码的所述重复程度差异大于预设重复程度差异阈值时,确定满足所述预设组合条件;
在所述目标编码和所述的邻域编码的所述重复程度差异小于等于预设重复程度差异阈值时,确定不满足所述预设组合条件。
5.如权利要求1所述的方法,其特征在于,所述根据所述编码识别子段的所述识别优先级对所述待识别编码段进行识别,确定重复编码段,包括:将所述识别优先级最高的所述编码识别子段作为参考子段;
确定所述待识别编码段在所述参考子段中的出现次数为所述待识别编码段的识别数量,将所述识别数量大于预设识别数量阈值的所述待识别编码段作为重复编码段。
6.如权利要求1所述的方法,其特征在于,所述对所述计算机存储数据进行进制转换,生成待处理编码,包括:基于ASCII编码表将所述计算机存储数据转换为十进制编码,并将所述十进制编码作为所述待处理编码。
7.如权利要求1所述的方法,其特征在于,所述对所述待处理编码段内的待处理编码进行频率分析,获得所述待处理编码的重复程度,包括:对所述待处理编码在所述待处理编码段内的频率进行归一化处理,得到频率归一化值,将所述频率归一化值作为所述待处理编码的重复程度。
8.如权利要求1所述的方法,其特征在于,所述根据所述待处理编码点簇内所有所述待处理编码的所述重复程度,从所述待处理编码点簇中确定目标点簇,包括:计算所述待处理编码点簇内所有所述待处理编码的重复程度均值,确定所述重复程度均值最大的所述待处理编码点簇为目标点簇。