1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;
所述信息数据存储整合系统的整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理;
所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称;
所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称;
所述对相近文档进行拆分合并处理包括:
将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中设置拆分标记,其中,第一文档中的拆分标记为第一拆分标记,第三文档中的拆分标记为第二拆分标记,第二文档的拆分标记为第三拆分标记;
如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同,按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分;
如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同,将第一文档中相应的第一拆分标记设置为第一存疑拆分标记,将第三文档中相应的第二拆分标记设置为第二存疑拆分标记;
将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较,如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改该第一存疑拆分标记为第一拆分标记;
如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置,并将该第一存疑拆分标记修改为第一拆分标记;
按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。