1.面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于该方法包括结构化数据属性提取、网页表数据属性提取、数据集成;
所述的结构化数据属性提取过程包括以下步骤:步骤1‑1:将智慧校园各关系型数据库A中所有结构化数据表抽取出来,并经过数据清洗;同时存储到数据库B;
A={A1,A2,......,An},其中An表示第n个关系型数据库,n为关系型数据库数量;
步骤1‑2:按照属性匹配策略在步骤(1‑1)数据清洗后各数据表寻找相关联属性,若存在m个相关联属性(m≥1),则根据相关联属性将步骤(1‑1)数据清洗后各数据表数据集成为特征表1;若不存在相关联属性,则将步骤(1‑1)数据清洗后各数据表作为特征表1;
所述的网页表数据属性提取过程包括以下步骤:步骤2‑1:从多网站的前端页面源码中获取离散网页表数据,将其转化为XML格式的数据;
步骤2‑2:将步骤(2‑1)处理后网页表数据通过混合标签匹配算法计算各网页表的标签映射关系相似度;选取相似度大于阈值的标签映射关系,然后对其进行优化;利用优化后的标签映射关系将离散网页表缝合为一张较大网页表;
步骤2‑3:分析缝合好的网页表数据结构,将其转化为对应的结构化数据表2并存储至数据库B;
所述数据集成过程是通过属性匹配策略将结构化数据表2与特征表1数据集成为属性更丰富的特征表3。
2.根据权利要求1所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的混合标签匹配算法采用基于标签名匹配器、基于标签类型匹配器、基于重复值匹配器三种通过赋予不同的权重组成的混合标签匹配器。
3.根据权利要求1所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的属性匹配策略是采用多项分类器寻找相关联属性;多项分类器包括基于结构分类器与基于内容分类器,基于结构分类器包括基于属性名称分类器、基于词干名称分类器与基于数据类型名称分类器;
假设有两个数据表X=
其中ωN表示N分类器的权重,ωS表示S分类器的权重,ωT表示T分类器的权重,ωB表示B分类器的权重;
若多项分类器的相似度Sij小于阈值s则认为这两列属性没有关联关系,应该舍弃;反之则这两列属性为关联属性。
4.根据权利要求3所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的基于属性名称分类器N,判断Xi与Yj的属性名是否一致:
5.根据权利要求4所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的基于词干名称分类器S,使用信息检索和自然语言处理中的词干处理技术将单词转换成词干,判断Xi与Yj是否有相同的词干:
6.根据权利要求5所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的基于数据类型名称分类器T,比较Xi与Yj的属性类型是否一致:其中 表示Xi属性的数据类型。
7.根据权利要求6所述的面向智慧校园的网页表数据与关系型数据库数据集成方法,其特征在于所述的基于内容分类器B,比较Xi与Yj各自属性的属性值是否一致:其中Yj={Yj(1),Yj(2),......Yj(v2)}表示Yj有v2个属性值,并且Yj(v)为第v个属性值,
1≤v≤v2;w为v属性值中的单个词;P(w|Xi)表示将Xi映射到w的概率;P(Xi)表示随机选取Xi属性的概率。
8.一种面向智慧校园的网页表数据与关系型数据库数据集成装置,其特征在于具体包括以下模块:
数据抽取模块,用于抽取各关系型数据库A中所有结构化数据表,并进行数据清洗;
网页表数据收集模块,用于从多网站的前端页面源码中获取离散网页表数据;
存储模块,用于存储数据抽取模块、格式转化模块与数据集成模块传送的数据表;
属性匹配模块,用于寻找储存模块各数据表的相关联属性;
标签匹配模块,用于计算网页表数据收集模块传送的各网页表的标签映射关系相似度,并对其进行优化;利用优化后的标签映射关系将离散网页表缝合为一张较大网页表;
格式转化模块,用于将标签匹配模块传送的网页表转化为对应的结构化数据表,存储至存储模块;
数据集成模块,用于根据属性匹配模块传送的相关联属性,将储存模块各数据表数据集成为特征表,存储至存储模块。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1‑7中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1‑7中任一项所述的方法。