1.基于数据仓库的医疗数据整合系统,包括储存模块,其特征在于,储存模块通信连接有数据查重模块,数据查重模块设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存;
一级数据库通信连接有校核模块,校核模块对一级数据库内的文字数据进行校核,获得重合数据,将重合数据进行删除,将非重合数据发送到二级数据库中进行储存;
二级数据库通信连接有完整模块,所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:获取二级数据库中文字数据的类型,建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存;
其中,设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
2.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,完整模块内设有复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存。
3.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,所述一级数据库、二级数据库和三级数据库内均设有比对单元,通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据。
4.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,设置文字数据采集间隔时间T的方法包括:获取采集一次文字数据的数量n,将文字数据标记为i,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值设置超量值V,实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集。
5.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,校核模块的工作方法包括:提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存。
6.根据权利要求1-5任一项所述的基于数据仓库的医疗数据整合系统的整合方法,其特征在于,具体方法包括:步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。