欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017102096661
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.多页同类文档碎片的分组方法,其特征在于,包括以下步骤:步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;

步骤2、将文档的最左边碎片和最右边碎片进行分组对应;

步骤2、将文档的最左边碎片和最右边碎片进行分组对应的具体过程为:将L中的文字块和R中的文字块划分为四种类型:第Ⅰ类:空白,第Ⅱ类:汉字,第Ⅲ类:含有句号,第Ⅳ类:含有逗号;设R中某一行的文字块的类型为i,L中该行下一行的文字块的类型为j,统计R中某一行的文字块与L中该行下一行的文字块之间的相关度Pji;

计算任意一个最右边碎片Ri与其他L之间的相关度SCji:其中,m表示每个碎片中含有的文字块的总数量,Pji(k+1,k)表示R中第k的行文字块和L中第k+1的行文字块之间的相关度;

最大的SCji所对应的L,即为与Ri同组的L,按照公式(7),逐一将所有R和L进行分组对应;

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片的具体过程为:对L和R以外的碎片中的文字块进行空白块识别:

其中,Hei为文字块中黑色像素点的个数;

计算每个碎片中空白块的数量占文字块的总数量的比例α:

其中,m表示每个碎片中文字块的总数量,n表示每个碎片中空白块的数量;

根据α值的大小,将碎片划分为密集碎片和非密集碎片:

其中,TH是阈值,TH取值范围是0.1~0.2;

步骤4、对非密集碎片进行分组;

步骤4、对非密集碎片进行分组的具体步骤为:

步骤4.1、对文档靠左部分的非密集碎片进行分组;

步骤4.1、对文档靠左部分的非密集碎片进行分组的具体过程为:将任意一个最左边碎片设为起始碎片KL,进行以KL为起点的右近邻匹配:首先,计算KL与待匹配的非密集碎片之间的匹配度集合S(k):S(k)={Sk,1,Sk,2,…,Sk,j,…,Sk,n,}                              (11)式中,Sk,j表示KL与第j个待测的非密集碎片之间的匹配度,1≤j≤n,n表示待匹配的非密集碎片的数量:式中,m为每个碎片的文字行数,即每个碎片的文字块的总数量,Ci为两个碎片的第i行文字块之间的匹配度;

最大匹配度对应的非密集碎片即为与KL右近邻的非密集碎片v:v=argmaxS(k)                                           (13)其次,匹配出与v右近邻的非密集碎片,进而,按照公式(11)、(12)、(13)逐一实现非密集碎片与其右近邻的碎片的匹配,当非密集碎片与一个密集碎片匹配上时,以KL为起点的右近邻匹配的过程结束,该密集碎片即为文档靠左部分的右边界碎片,设为LR;

逐一实现以其他最左边碎片为起点的右近邻匹配,完成文档靠左部分的非密集碎片的分组;

步骤4.2、对文档靠右部分的非密集碎片进行分组;

步骤4.2、对文档靠右部分的非密集碎片进行分组的具体过程为:将任意一个最右边碎片设为起始碎片KR,在步骤4.1分组后剩下的非密集碎片中,找出所有非空白块的位置与KR完全相同的非密集碎片,即为与KR同组的非密集碎片;将KR转化为一个空白块与非空白块的集合KR',将每个与KR同组的非密集碎片分别转化为一个空白块与非空白块的集合,将与KR'同组的空白块与非空白块的集合逐个和KR'进行异或运算:Wi表示任意一个与KR'同组的空白块与非空白块的集合,Yh是异或运算的结果,最大的Yh值对应的碎片即为文档靠右部分的左边界碎片,设为RL:RL=argmax(Yh)                                              (15)按照公式(14)、(15),逐一找出与其他最右边碎片同组的非密集碎片,实现文档靠右部分的非密集碎片的分组;

步骤5、对密集碎片进行分组;

步骤5、对密集碎片进行分组的具体过程为:

将文档中的一对边界碎片,即靠左部分的右边界碎片LR和靠右部分的左边界碎片RL,设为(LR,RL),文档中所有的(LR,RL)构成集合I:I={(LR1,RL1),(LR2,RL2),...,(LRi,RLi),...,(LRN,RLN)}                      (16)其中,(LRi,RLi)表示第i对(LR,RL),N表示碎片的分组数量;

寻找并记录每对(LR,RL)中位置相同的空白块的具体位置和数量,将每对(LR,RL)按照空白块的数量进行排序,将包含空白块数量最多的(LR,RL)设为(LRj,RLj),从(LRj,RLj)开始分组,搜索与(LRj,RLj)具有相同位置及数量的空白块的密集碎片,即为与(LRj,RLj)同组的密集碎片,逐一实现密集碎片的分组。

2.根据权利要求1所述的多页同类文档碎片的分组方法,其特征在于,步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量的具体过程为:将碎片按行间距水平分割成若干个文字块,将若干个文字块划分为5种抽象类型:x1类:空白,x2类:字符分布在左右两边,x3类:字符位于中间,x4类:字符位于右边,x5类:字符位于左边,设5种抽象类型的集合为C,C={x1,x2,x3,x4,x5,};

用贝叶斯分类器将每个文字块转化为5种抽象类型之一:

将文字块设为y,y={α1,α2,…,αn,},其中,αn表示文字块中第n个灰度特征,根据贝叶斯定理,如公式(1)所示,分别计算文字块为x1类的概率P(x1/y)、文字块为x2类的概率P(x2/y)、文字块为x3类的概率P(x3/y)、文字块为x4类的概率P(x4/y)、文字块为x5类的概率P(x5/y),由max{P(x1/y),P(x2/y),…,P(x5/y)}判断出文字块y的抽象类型,将每个碎片分别转换成文字块的抽象类型的集合;

其中,P(xi/y)表示文字块为xi类的概率,xi∈C,P(y)表示文字块出现的概率,P(y/xi)表示不同抽象类型下文字块出现的条件概率,P(xi)表示不同抽象类型出现的概率,P(y/xi)·P(xi)的计算如下:其中,αn表示文字块中第n个灰度特征,P(αj/xi)表示xi类下文字块的第j个灰度特征出现的条件概率;

计算每个碎片中x1类文字块和x4类文字块的数量之和占文字块的总数量的比例Q14:计算每个碎片中x1类文字块和x5类文字块的数量之和占文字块的总数量的比例Q15:式中,Num表示每个碎片中文字块的总数量,Num1表示x1类文字块的数量,Num4表示x4类文字块的数量,Num5表示x5类文字块的数量;

将文档最左边的碎片设为L,判断一个碎片是否为L:

将文档最右边的碎片设为R,判断一个碎片是否为R:

其中,Qth是阈值,Qth取值范围是0.8~0.9;

统计文档中L的数量NL以及R的数量NR,碎片的分组数量为N,N=NL=NR。