欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020116388900
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种数学公式识别方法的方法,包含以下的步骤:步骤S1:针对数学公式图片的特点选取连通域与规则相结合的方法进行公式图片切割,获得单个字符图片和字符图片的多种坐标信息,并根据字符图片位置信息按照自左向右、自上向下的顺序排序形成字符图片数据流;

步骤S2:利用浅层卷积神经网络对分割得到的单个字符图片进行字符识别,获得单个字符图片的类别,并更新字符图片数据流对应字符的信息;

步骤S3:对公式结构进行识别,首先搜索公式中运算符号,判断运算符号的类别,根据类别的不同实现对符号的作用域内的子式进行处理;获得对运算符的作用内的子式处理之后的数据流,开始应用中心线的概念,识别公式中的上下标位置关系;

步骤S3的特征在于利用运算符号的作用域固定的特点,将不同种类运算符作用域分为三类,分别是分号、特殊运算符和普通二元运算符号,其中特殊运算符包括根号、求和符号、积分符号大符号,这些运算符有多个作用域;特殊运算符的每个作用域有自己的中心线,每个作用域的所有字符的识别可看成一个子公式的识别;

步骤S3的中心线方法的特征在于:对普通字符间上下标位置关系识别是利用字符在书写时受四线格的约束情况提出中心线的概念;将常见字符分类为向上类、向下类、全占类和中心类,依据字符类型不同采用不同的权值来计算字符的中心线,并根据中心线的范围阈值来判断两个字符或子式之间的位置关系;

假设当前字符图片的是c,n是c的后一个字符;c左上角纵坐标是cy1,右下角纵坐标是cy2;n的左上角和右下角的纵坐标分别是ny1,ny2;center1是c的中心线的纵坐标,center2是n的中心线的纵坐标,range是c上下标出现的范围;center1和center2的计算如下式所示:center1=a·cy1+b·cy2                  (1)center2=a·ny1+b·ny2                 (2)式中,a和b是不同类型字符计算中心线的系数;

range的计算如下式所示:

range=(cy2‑cy1)·line_height_ratio            (3)式中line_height_ratio的选取固定值为0.35;

利用下面条件判断c和n的关系:

if(center1‑range)>center2&&(cy2‑range>ny2)n是c的上标;

if(center1+range)

else

n在c的水平右边;

步骤S4:输出公式识别结果。

2.根据权利要求1所述的方法,步骤S3的特征在于,将数学字符图像识别之后的字符图片数据流进行处理,包括:

S3‑1:对于输入的公式字符数据,优先处理分号,再处理特殊运算符,查找字符图片数据流是否有分号,若有分号,主要分成分子和分母两个子式来识别处理;若有多个分号,按照分号长度升序依次处理分号;

S3‑2:根据分号图片的位置特性,在原字符图片数据流中找到分号上部和下部的字符图片集合;

S3‑3:对于分号上部和下部的字符图片集合,先调用特殊运算符处理方法,再调用中心线方法对分号上下部进行识别;

S3‑4:将上下部的识别结果及分号,转换成Latex语言表达式,并将转换后的表达式存入到字符图片数据流对应分号数据中,将原字符图片数据流中的分号上下部分的所有字符数据删除;

S3‑5:将删除后的字符数据流重复进行S3‑2至S3‑6步骤,直至字符图片数据流中分号已处理完;

S3‑6:调用特殊运算符处理方法依次处理字符图片数据流的特殊运算符,以得到特殊符号及其作用域所对应的子式的Latex表达式;将识别得到的Latex表达式存入字符图片数据流对应特殊运算符数据中,并删除该数据流中特殊运算符作用域内的所有字符图片数据;

S3‑7:反复调用S3‑6,直到数据流中的所有特殊运算符处理完毕;

S3‑8:调用中心线方法处理字符图片数据流,以进行字符间上下标位置关系识别,并最终得到公式的Latex语言识别结果。

3.根据权利要求2所述的方法,步骤S3‑3和S3‑6中特殊运算符处理方法的特征在于:在字符图片数据流查找特殊运算符,并根据特殊运算符的作用域特点,查找每个作用域的字符图片集合,然后依次调用特殊运算符处理方法和中心线处理方法处理这些字符集合;在此基础上,把特殊运算符及其作用域内的字符转换成Latex表达式。