知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种图像文字识别的方法和装置

￥28000

专利号： 2012102793704

申请人：北京百度网讯科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种图像文字识别的方法，其特征在于，该方法包括：

S1、获取待识别图像中的文字区域；

S2、对文字区域中的各字块分别进行识别并记录各字块的位置信息；

S3、基于各字块的位置信息进行版面分析得到语句结构分布；

S41、将文字行中各字块的识别结果与词语库进行匹配，得到构成词语的识别结果；

S42、利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句；

S43、确定各语句的语义置信度，或者进一步将各语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度；

S44、依据语句的语义置信度或总置信度，选择语句作为校正后的识别结果，其中语句的总置信度由语句的语义置信度和匹配置信度结合确定。

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：服务器接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，服务器接收移动终端从待识别图像中提取并发送来的文字区域。

3.根据权利要求1所述的方法，其特征在于，所述S3具体包括：利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。

4.根据权利要求1所述的方法，其特征在于，在所述S41中还包括：将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除，但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。

5.根据权利要求1所述的方法，其特征在于，所述S2中还包括：依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度；

在所述S43中利用语句中各识别结果的置信度求和得到语句的语义置信度，其中在求和时提高构成词语的识别结果的置信度。

6.根据权利要求1所述的方法，其特征在于，所述S43中将各语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度具体包括：挑选语义置信度排在前n1个的语句，n1为预设的正整数，将挑选的语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度。

7.根据权利要求1所述的方法，其特征在于，在所述S43中采用如下公式确定语句i的匹配置信度Cm：Cm＝Ni×α×Pi

其中，Ni为语句i包含的字数，α为预设的系数，Pi为语句i与语句L的最大连续匹配文字个数与语句L的总字数的比例，其中所述语句L为语句i在语句数据库中的匹配语句。

8.根据权利要求1所述的方法，其特征在于，该方法还包括：

S5、利用校正后的识别结果进行搜索，确定与校正后的识别结果匹配状况最优的网络文档，截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。

9.根据权利要求8所述的方法，其特征在于，所述截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果为：从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。

10.一种图像识别的装置，其特征在于，该装置包括：

区域获取单元，用于获取待识别图像中的文字区域；

文字识别单元，用于对文字区域中的各字块分别进行识别；

位置记录单元，用于记录各字块的位置信息；

版面分析单元，用于基于各字块的位置信息进行版面分析得到语句结构分布；

语义分析单元，用于将文字行中各字块的识别结果与词语库进行匹配，得到构成词语的识别结果；利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句；确定各语句的语义置信度，或者进一步将各语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度；依据语句的语义置信度或总置信度，选择语句作为校正后的识别结果，其中语句的总置信度由语句的语义置信度和匹配置信度结合确定。

11.根据权利要求10所述的装置，其特征在于，所述区域获取单元接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，接收移动终端从待识别图像中提取并发送来的文字区域。

12.根据权利要求10所述的装置，其特征在于，所述版面分析单元具体被配置为：利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值的字块作为一个水平方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值的字块作为一个竖直方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在竖直上位置差距小于预设第一阈值且字块大小差异小于预设大小阈值的字块作为一个水平方向的文字行；或者，利用字块中心在所述待识别图像中的坐标信息将在水平上位置差距小于预设第二阈值且字块大小差异小于预设大小阈值的字块作为一个竖直方向的文字行。

13.根据权利要求10或12所述的装置，其特征在于，所述语义分析单元具体包括：词库匹配子单元，用于将文字行中各字块的识别结果与词语库进行匹配，得到构成词语的识别结果；

语句确定子单元，用于利用构成词语的识别结果以及未构成词语的识别结果按字块顺序进行组合得到各语句；

语义置信度确定子单元，用于确定各语句的语义置信度；

匹配置信度确定子单元，用于将各语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度；

校正子单元，用于将各语句的语义置信度和匹配置信度进行结合确定各语句的总置信度，选择总置信度最高的语句作为校正后的识别结果。

14.根据权利要求13所述的装置，其特征在于，所述词库匹配子单元，还用于将文字行中非首位的字块的识别结果中无法与紧邻字块的识别结果组成词语的识别结果删除，但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外。

15.根据权利要求13所述的装置，其特征在于，所述文字识别单元，还用于依据识别结果与图片中字块的相似度确定各字块的识别结果的置信度；

所述语义置信度确定子单元具体被配置为：利用语句中各识别结果的置信度求和得到语句的语义置信度，其中在求和时提高构成词语的识别结果的置信度。

16.根据权利要求13所述的装置，其特征在于，所述匹配置信度确定子单元具体被配置为：挑选语义置信度排在前n1个的语句，n1为预设的正整数，将挑选的语句与语句数据库进行匹配，依据匹配状况确定各语句的匹配置信度。

17.根据权利要求13所述的装置，其特征在于，所述匹配置信度确定子单元采用如下公式确定语句i的匹配置信度Cm：Cm＝Ni×α×Pi

18.根据权利要求10所述的装置，其特征在于，该装置还包括：网络扩展单元，用于利用校正后的识别结果进行搜索，确定与校正后的识别结果匹配状况最优的网络文档，截取该网络文档中与校正后的识别结果匹配的网络文字内容作为扩展后的识别结果。

19.根据权利要求18所述的装置，其特征在于，所述网络扩展单元在执行所述截取的操作时，具体从该网络文档中截取包含校正后的识别结果的最小句子或最小段落作为扩展后的识别结果。