1.一种基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,包括以下步骤:
步骤1:构建用于获取关键文本所在区域边框位置的关键文本信息检测模型;
步骤2:构建关键文本识别模型用于识别文本边框内的文字;
步骤3:将待提取信息的文档图像依次通过关键文本信息检测模型和关键文本识别模型,获取全部子图的文字识别结果;
步骤4:以关键文本边框为节点构建图,以图神经网络为基础网络分别对于每个文本框的节点进行聚合,并预测节点的关键文本节点类型;
步骤5:以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。
2.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述关键文本检测模型采用双层UNet模型;输出为三通道的关键文本的区块掩码层;其中三通道分别对应为印刷体检测通道、手写体检测通道以及印章检测通道。
3.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于所述关键文本图像识别模型采用的光学字符模型为CRNN模型,针对不同的文字类型分别依次训练不同的识别器,包括印刷体文字识别模型MP、手写体文字识别模型MH和印章字体文字识别模型MS。
4.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3具体为:
步骤3.1:将待提取信息的文档图像X送入到关键文本检测模型中,检测到文本类别信息以及N个关键文本信息的边框B={B1,B2,...,BN},其中每个边框BN由四个边框坐标值组成BN={bN1,bN2,bN3,bN4};
步骤3.2:根据得到的关键文本边框集合B,从原始的文档图像中裁剪出所有包含关键文本信息的子图像I={I1,I2,...,IN};
步骤3.3:将所有包含关键文本信息的子图像I送入到关键文本图像识别模型中,得到全部子图的文字识别结果T={T1,T2,...,TN},其中每个文本结果Ti={t1,t2,...}由长度不等的文字组成。
5.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3.1具体为:
步骤3.1.1:将文档图像X送入到关键文本检测模型中,关键文本检测模型首先输出预测的关键文本文字掩码层XT,其次将关键文本文字掩码层送入第二层Unet检测网络,得到关键文本所在区域掩码层XB={XBP,XBH,XBS},其中三个元素分别表示关键文本区域掩码层的印刷体掩码层,手写体掩码层和印章掩码层;
步骤3.1.2:对于关键文本区域掩码层XB进行阈值分割,设定划分阈值HT,对于小于划分阈值的像素赋值为0,对于大于划分阈值的像素赋值为255,得到关键文本区域掩码层二值图Bbin,将掩码二值图进行轮廓计算,根据得到的轮廓从而得到关键文本所在区域的N个边框B={B1,B2,...,BN}。
6.根据权利要求4所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤3.2具体为:
步骤3.2.1:输出的边框区域B,根据其关键文本类别的不用分别采用对应的文字识别模型,对于印刷体文本则调用印刷体文字识别模型MP进行识别,手写体文字则使用手写体文字识别模型MH,而印章部分则需要先通过曲线文字检测模块,获得曲线所在区域;
步骤3.2.2:然后拉直印章的曲线文字,再交由印章文字识别模型MS进行识别;
步骤3.2.3:在获得文字识别结果之后,汇总全部类型的关键文本识别结果为T={T1,T2,...,TN}。
7.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤4具体为:
步骤4.1:关键文本的文字识别结果T,经过嵌入式词向量层,将每一个文本行识别的文字结果转换为词向量E={E1,E2,...,EN}来表示,其中每一个文本行的词向量Ei={e1,e2,...},Ei长度与Ti相对应,ei为每个词的词向量;
步骤4.2:根据得到关键文本框B={B1,B2,...,BN}和文本行词向量E={E1,E2,...,EN},构建整张文档图像的关键信息图;
步骤4.3:在关键信息图中,对所有节点文本行词向量E按照最长文本进行补全,然后送入到双向LSTM循环神经网络中,并得到节点中所有词向量最后一层的隐含层特征Eh={Eh1,Eh2,...,EhN},同时将节点之间的边特征L送入到多层神经网络中,输出得到新的边特征向量Lh={Lhij|i,j∈N},其中i和j为相邻节点;
步骤4.4、对于每一个节点i,分别与其邻接节点j计算得到三元组特征向量T={Tij|Cij=1}
其中Tij=Ehi|Lhij|Ehj由节点i的隐含层输出特征Ehi、节点j的隐含层输出特征Ehj与其连接边Lhij进行特征拼接得到;
步骤4.5:得到Tij之后,对于节点i进行键值类别判断,将节点i所有的三元组特征Tij经过两层全连接层,得到特征向量Gij∈Rp,其维度为预测类别数p;
步骤4.6:将得到的特征向量Gij进行聚合操作得到节点i的聚合特征表示 最后对于聚合完成的特征表示Gi送入到softmax函数中,得到最终的预测输出特征向量Oi∈p
R,将节点输出特征向量Oi的最大值所在的索引值对应的类型即为该节点预测的键值类型。
8.根据权利要求7所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述构建整张文档图像的关键信息图具体为:每一个关键文本框为图的一个节点,设定每个节点i与其周边m个节点之间存在互相连接的边,得到图的连接矩阵为C={Cij|i,j∈N},如果节点i和j相连,如果节点i和j相连,则Cij=1,反之不相连Cij=0;然后计算得到边的特征Li={Lij|j∈m},其中每条边Lij由k个边框位置属性特征值组成,lk具体的Lij=(l1 ,l2 ,...,l7)由7个边框位置属性特征值组成 ,7个边框 属性为其中W,H分别表示文档图像的宽和高,wn,hn表示第n个关键文本框的宽高。
9.根据权利要求1所述的基于图神经网络的文档图像关键信息提取及匹配方法,其特征在于,所述步骤5具体为:
步骤5.1:根据已识别的文本行文字结果以及图神经网络的分类结果,使用正则表达式的方式以及建立领域规则库的方式,修复错误的文本行识别结果,修改分类结果;
步骤5.2:基于获取的关键文本信息的文本框位置以及修改后的识别以及文本行类别分类结果,将属于同一类别的跨文本行文字进行合并,得到最终结果。
10.一种基于图神经网络的文档图像关键信息提取及匹配系统,其特征在于,包括依次连接点关键信息检测模块、关键信息识别模块、关键信息匹配模块和关键信息后处理模块;
所述关键信息检测模块用来关键文本所在区域边框位置;所述关键信息识别模块用于识别文字边框内的文字;所述关键信息匹配模块,用于关键信息键值匹配;所述关键信息后处理模块,用于以正则表达式以及领域规则库的方式修正关键文本的识别结果,并得到最终的提取及匹配结果。