欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021107513681
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述方法包括以下步骤:

S1、数据抓取:从所需要抽取出互联网论文数据的网站中抓取到页面的HTML代码,并将其存储在本地数据库;

S2、页面清洗与预处理:删除页面注释、无用标签、空节点,合并文字内容,使得页面内有效文本内容均以行为单位居中于页面中央;

S3、基于MD5三叉树进行站内静态噪音去除:将经过清洗与预处理的页面采用基于MD5三叉树的站内静态模板噪音清除算法,去除静态噪音数据;

S4、基于节点间相似度进行页间动态噪音去除:将去除静态噪音的页面采用基于节点间相似度的页间噪音清除算法,去除动态噪音数据;

S5、基于改进BIRCH算法进行字段单元构建:将进行降噪处理后的页面使用基于改进的BIRCH聚类算法构建字段单元,所述步骤S5具体包括以下步骤:S51、节点特征选择及向量化表示;

S52、基于改进BIRCH聚类算法构建字段单元;

S6、字段匹配:将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据,所述步骤S6具体包括以下步骤:S61、定义Web页面字段名称;

S62、定义字段匹配与页面内容提取方法:针对Web页面所表现出来的结构,基于规则的正则表达式进行字段匹配;针对部分字段规则呈现不明显且文本内容不存在任何语义的情况,基于数理统计进行字段匹配。

2.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S3具体包括以下步骤:S31、通过使用网站页面的DOM树结构,对每一个页面定义一个三元组P=(Ω,Φ,η);

其中:Ω=(P1,P2,…,Pn)表示给定页面上DOM树的节点Pi集合,i=1~n;Φ=(tag,attrib,text,path)表示当前DOM子树的根节点信息,tag表示节点的标签名称,attrib表示节点的属性信息,text表示节点下的文本内容,path表示节点的路径;η表示Φ所生成的唯一标识信息,将它称作节点的“指纹”,采用MD5算法计算得出;

S32、将基于MD5三叉树模型数据结构表示为五元组(D,h,p,n,s);

其中:D表示HTML文档解析成的DOM树结构,表示该DOM树按深度遍历得到的所有节点的MD5值的集合;h表示前缀节点,表示从集合开始到第一个相同MD5值之间的子集;p表示噪音节点;n表示两个对比页面中相同MD5值的部分;s为后缀节点,表示从n中最后一个MD5后到h中最后一个MD5之间的子集;在构建三叉树的过程中可以递归表示成(hi,pi,ni,si),i表示三叉树的层数;

S33、将相同站点下两个页面按照上述方法进行定义和计算并进行比较,可以得到静态噪音,并进行清除。

3.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S4具体包括以下步骤:S41、计算链接节点即动态模板噪音初值,用符号Di表示:其中:i表示第i个链接节点;FNi表示文本内数字的个数;TLi表示动态噪音文本字符的个数;

S42、计算链接节点相似度;

S43、计算其他链接节点对当前链接节点的总影响Zi:其中:Wi表示第i个链接节点对当前链接节点的影响权重;

S44、将经过上述操作后得到的最终结果即为当前节点的最终噪音值;

S45、将节点的噪音值进行聚类。

4.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S42具体包括以下步骤:S421、计算节点间距离,即从根节点开始到两节点的路径中,除去公共节点后剩余节点的数量;

S422、节点间距离的倒数视为节点间的相似度值;

S423、构建链接节点间相似度矩阵。

所述步骤S45具体包括以下步骤:

S451、将噪音值映射到指定区间内,得到最终的节点得分Score:其中:a和b分别表示映射到指定区间的边界值;x表示待输入的噪音值;xmin和xmax分别表示噪音值中的最小值和最大值,由于加入了基础节点,且噪音值均为正数,所以xmin恒为

0;

S452、将得到的各链接节点的值后,采用CLARANS算法对节点进行聚类,固定聚类类别为2类,对应正文链接和噪音链接,从而去除动态模板噪音数据。

5.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S52具体包括以下步骤:S521、基于样本点距离区域划分,融合DBSCAN密度聚类算法,对样本点数据进行密集区域与稀疏区域的划分;

S522、融合密度因素构建ACF树,将各个区域的样本点分别进行ACF森林的构建,采用两种不同的聚类特征,引入修正因子,来动态更新ACF森林的子空间阈值;

S523、修正密集区域与稀疏区域生成ACF森林,在构建的稀疏区域ACF森林中,扫描所有稀疏区域ACF森林的叶子节点,寻找更新子空间半径后的密集区域ACF森林中可以合并的叶子节点,并将其插入密集区域ACF森林中,随后更新圆域半径以及祖先节点CF三元组的值;

S524、重复执行步骤S523,直至稀疏区域中无样本点可插入密集区域中则执行步骤S525;

S525、遍历完所有的稀疏区域构成的ACF森林中的样本点,得到多个区域内生成的ACF森林,ACF森林中每一棵树的叶子节点都是一个字段单元。

6.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S521具体包括以下步骤:S5211、任意读取一个数据样本,将其视为圆域的质心di,然后依次读入数据,计算当前样本点x与圆域质心di的距离Dd:其中:m为数据样本包含的特征个数;

S5212、若Dd小于提前设置的圆域半径R,则执行步骤S5213,否则将样本点x视为一个新的圆域的质心;

S5213、将样本点x加入以di为质心的圆域,并更新圆域的质心di′:其中:n0表示当前圆域内样本点的数量;

S5214、继续读入数据,并与当前已经建立起来的圆域质心计算距离,并加入到距离最近且小于R的圆域中,直到数据读入完毕。

7.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S522具体包括以下步骤:S5221、从数据集中读入第一个样本点X1,将其放入一个新的三元组ACFA中,此时这个三元组的N=1,LS与SS值与该样本点相同,将这个样本节点放入根节点;

S5222、读入第二个样本点X2,计算X1与X2间的距离,若X2在以X1为圆心R为半径的圆域范围内,则说明它们都属于ACFA,将X2也加入到ACFA,并更新ACFA的三元组的值;

计算ACFA的圆域半径修正因子dt:R′=R·dt      (7)

其中:n1为圆域内样本点个数;Y为数据样本总数;R′为修正因子修正后的圆域半径;

每有一个新样本点插入ACF中,都要更新一次该ACF的圆域半径,并更新圆域的质心;

S5223、读入第三个样本点X3,若发现它不能融入刚才形成的圆域A,需要一个新的四元组ACFB来容纳这个新的样本点,此时根节点有两个区域聚类特征,分别为ACFA和ACFB,每插入一个新样本都要向上递归更新其祖先节点的聚类特征CF,此时不需要保留圆域半径修正因子,直接更新其三元组即可;

S5224、若ACF树中某一节点的子节点数量大于分支因子B,则需要进行节点分裂;

S5225、将该节点下的所有ACF四元组中,找到两个距离最远的ACF,作为两个新叶子节点的种子ACF,然后将该节点下剩余的叶子节点,包括新样本点,根据距离划分到两个最近的新节点旁;

S5226、若分裂后的ACF树根节点的子节点数量也超过了范围,对根节点也要分裂,分裂方法与步骤S5225相同;

将每一个密集区域与稀疏区域都进行上述操作,会生成多棵ACF树。

8.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S522中两种不同的聚类特征包括叶子节点的聚类特征和非叶子节点的聚类特征,其中每一个ACF森林的非叶节点聚类特征与BIRCH算法中的聚类特征相同,由一个三元组(N,LS,SS)组成;叶子节点的聚类特征则引入一个修正因子,来动态更新ACF森林的子空间阈值,至少包含2个样本点的叶子节点聚类特征由一个四元组(N,LS,SS,dt)组成;

其中:N表示当前ACF/CF节点内拥有的样本点数量;LS表示当前ACF/CF节点内样本各个特征维度的向量和,其维度大小与特征向量的维度相同;SS表示当前ACF/CF节点内拥有的样本点各特征维度平方的和,其维度大小为1;dt表示当前ACF节点空间区域半径R的修正因子,dt=1+na/Y,na表示圆域内样本点个数,Y表示数据样本总数。

9.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S31中节点的属性信息attrib为节点拥有的包含名称及属性值在内的全部属性,文本内容text为节点起始标签和结束标签之间包含的全部的文本信息。