知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

多页同类文档碎片的分组方法

面议

专利号： 2017102096661

申请人：西安理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.多页同类文档碎片的分组方法，其特征在于，包括以下步骤：步骤1、提取文档的最左边碎片和最右边碎片，并确定碎片的分组数量；

步骤2、将文档的最左边碎片和最右边碎片进行分组对应；

步骤2、将文档的最左边碎片和最右边碎片进行分组对应的具体过程为：将L中的文字块和R中的文字块划分为四种类型：第Ⅰ类：空白，第Ⅱ类：汉字，第Ⅲ类：含有句号，第Ⅳ类：含有逗号；设R中某一行的文字块的类型为i，L中该行下一行的文字块的类型为j，统计R中某一行的文字块与L中该行下一行的文字块之间的相关度Pji；

计算任意一个最右边碎片Ri与其他L之间的相关度SCji：其中，m表示每个碎片中含有的文字块的总数量，Pji(k+1,k)表示R中第k的行文字块和L中第k+1的行文字块之间的相关度；

最大的SCji所对应的L，即为与Ri同组的L，按照公式(7)，逐一将所有R和L进行分组对应；

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片；

步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片的具体过程为：对L和R以外的碎片中的文字块进行空白块识别：

其中，Hei为文字块中黑色像素点的个数；

计算每个碎片中空白块的数量占文字块的总数量的比例α：

其中，m表示每个碎片中文字块的总数量，n表示每个碎片中空白块的数量；

根据α值的大小，将碎片划分为密集碎片和非密集碎片：

其中，TH是阈值，TH取值范围是0.1～0.2；

步骤4、对非密集碎片进行分组；

步骤4、对非密集碎片进行分组的具体步骤为：

步骤4.1、对文档靠左部分的非密集碎片进行分组；

步骤4.1、对文档靠左部分的非密集碎片进行分组的具体过程为：将任意一个最左边碎片设为起始碎片KL，进行以KL为起点的右近邻匹配：首先，计算KL与待匹配的非密集碎片之间的匹配度集合S(k)：S(k)＝{Sk,1,Sk,2,…,Sk,j,…,Sk,n,} (11)式中，Sk,j表示KL与第j个待测的非密集碎片之间的匹配度，1≤j≤n，n表示待匹配的非密集碎片的数量：式中，m为每个碎片的文字行数，即每个碎片的文字块的总数量，Ci为两个碎片的第i行文字块之间的匹配度；

最大匹配度对应的非密集碎片即为与KL右近邻的非密集碎片v：v＝argmaxS(k) (13)其次，匹配出与v右近邻的非密集碎片，进而，按照公式(11)、(12)、(13)逐一实现非密集碎片与其右近邻的碎片的匹配，当非密集碎片与一个密集碎片匹配上时，以KL为起点的右近邻匹配的过程结束，该密集碎片即为文档靠左部分的右边界碎片，设为LR；

逐一实现以其他最左边碎片为起点的右近邻匹配，完成文档靠左部分的非密集碎片的分组；

步骤4.2、对文档靠右部分的非密集碎片进行分组；

步骤4.2、对文档靠右部分的非密集碎片进行分组的具体过程为：将任意一个最右边碎片设为起始碎片KR，在步骤4.1分组后剩下的非密集碎片中，找出所有非空白块的位置与KR完全相同的非密集碎片，即为与KR同组的非密集碎片；将KR转化为一个空白块与非空白块的集合KR'，将每个与KR同组的非密集碎片分别转化为一个空白块与非空白块的集合，将与KR'同组的空白块与非空白块的集合逐个和KR'进行异或运算：Wi表示任意一个与KR'同组的空白块与非空白块的集合，Yh是异或运算的结果，最大的Yh值对应的碎片即为文档靠右部分的左边界碎片，设为RL：RL＝argmax(Yh) (15)按照公式(14)、(15)，逐一找出与其他最右边碎片同组的非密集碎片，实现文档靠右部分的非密集碎片的分组；

步骤5、对密集碎片进行分组；

步骤5、对密集碎片进行分组的具体过程为：

将文档中的一对边界碎片，即靠左部分的右边界碎片LR和靠右部分的左边界碎片RL，设为(LR,RL)，文档中所有的(LR,RL)构成集合I：I＝{(LR1,RL1),(LR2,RL2),...,(LRi,RLi),...,(LRN,RLN)} (16)其中，(LRi,RLi)表示第i对(LR,RL)，N表示碎片的分组数量；

寻找并记录每对(LR,RL)中位置相同的空白块的具体位置和数量，将每对(LR,RL)按照空白块的数量进行排序，将包含空白块数量最多的(LR,RL)设为(LRj,RLj)，从(LRj,RLj)开始分组，搜索与(LRj,RLj)具有相同位置及数量的空白块的密集碎片，即为与(LRj,RLj)同组的密集碎片，逐一实现密集碎片的分组。

2.根据权利要求1所述的多页同类文档碎片的分组方法，其特征在于，步骤1、提取文档的最左边碎片和最右边碎片，并确定碎片的分组数量的具体过程为：将碎片按行间距水平分割成若干个文字块，将若干个文字块划分为5种抽象类型：x1类：空白，x2类：字符分布在左右两边，x3类：字符位于中间，x4类：字符位于右边，x5类：字符位于左边，设5种抽象类型的集合为C，C＝{x1,x2,x3,x4,x5,}；

用贝叶斯分类器将每个文字块转化为5种抽象类型之一：

将文字块设为y，y＝{α1,α2,…,αn,}，其中，αn表示文字块中第n个灰度特征，根据贝叶斯定理，如公式(1)所示，分别计算文字块为x1类的概率P(x1/y)、文字块为x2类的概率P(x2/y)、文字块为x3类的概率P(x3/y)、文字块为x4类的概率P(x4/y)、文字块为x5类的概率P(x5/y)，由max{P(x1/y),P(x2/y),…,P(x5/y)}判断出文字块y的抽象类型，将每个碎片分别转换成文字块的抽象类型的集合；

其中，P(xi/y)表示文字块为xi类的概率，xi∈C，P(y)表示文字块出现的概率，P(y/xi)表示不同抽象类型下文字块出现的条件概率，P(xi)表示不同抽象类型出现的概率，P(y/xi)·P(xi)的计算如下：其中，αn表示文字块中第n个灰度特征，P(αj/xi)表示xi类下文字块的第j个灰度特征出现的条件概率；

计算每个碎片中x1类文字块和x4类文字块的数量之和占文字块的总数量的比例Q14：计算每个碎片中x1类文字块和x5类文字块的数量之和占文字块的总数量的比例Q15：式中，Num表示每个碎片中文字块的总数量，Num1表示x1类文字块的数量，Num4表示x4类文字块的数量，Num5表示x5类文字块的数量；

将文档最左边的碎片设为L，判断一个碎片是否为L：

将文档最右边的碎片设为R，判断一个碎片是否为R：

其中，Qth是阈值，Qth取值范围是0.8～0.9；

统计文档中L的数量NL以及R的数量NR，碎片的分组数量为N，N＝NL＝NR。