1.一种基于模板匹配的合并单元格表格分割识别方法,其特征在于,首先通过基于直线检测的矫正算法进行倾斜表格的矫正,经过基于轮廓检测的表格区域检测算法,得到感兴趣表格区域;然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法,对感兴趣cel l单元格进行分割提取处理;最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储。
2.根据权利要求1所述的方法,其特征在于,具体包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化处理,使用OTSU进行二值化图像处理;
步骤2、直线探测矫正阶段:使用形态学算法进行横向直线的提取,再次使用Hough进行直线提取,通过霍夫变换计算旋转角度,计算二维旋转仿射变换矩阵,基于原尺寸逆时针旋转图像角度,最终得到矫正后的图像;
步骤3、表格区域检测阶段:对矫正后的图像进行灰度化处理、形态学腐蚀处理,使得输入图像的黑色区域变大并进行OTSU二值化处理,通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测,使用轮廓检测进行表格矩形区域的检测,进而得到表格区域;
步骤4、模板匹配的表格分割阶段:首先根据模板建立规则进行建立模板文件,进而加载解析模板文件,对表格的标题进行识别并与模板文件中的表格标题进行对比,进而确定预加载的图像模板,使用基于最大相似性的图像模板匹配算法进行模板匹配,结合模板文件进行感兴趣区域的分割处理;
步骤5、字符识别阶段:通过预先训练的BP神经网络进行分割区域的识别。
3.根据权利要求2所述的方法,其特征在于,步骤5具体包括如下步骤:步骤501、提取训练字符模板;
步骤502、进行BP神经网络的训练;
步骤503、进行分割区域的BP神经网络识别;
步骤504、进行表格数字化的复现及数据库存储。