欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018109451654
申请人: 平安普惠企业管理有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-02-28
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文件内容提取方法,其特征在于,所述文件内容提取方法包括以下步骤:获取便携式文档格式文件;按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据;按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据;根据所述内容数据的数据类型,生成相应的内容文件。2.如权利要求1所述的文件内容提取方法,其特征在于,在获取便携式文档格式文件的步骤之后,所述文件内容提取方法还包括以下步骤:根据所述便携式文档格式文件,确定所述便携式文档格式文件的文件类型;根据所述文件类型,确定预设转换规则;和/或根据所述文件类型,确定预设解析规则。3.如权利要求1或2所述的文件内容提取方法,其特征在于,按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据的步骤包括:读取所述便携式文档格式文件,将所述便携式文档格式文件转换为字节数据;根据所述字节数据,生成与所述便携式文档格式文件相应的字节数组流数据;将所述字节数组流数据转换为超文本标记语言数据。4.如权利要求3所述的文件内容提取方法,其特征在于,所述便携式文档格式文件包括文本内容和图片内容中的至少一种;将所述字节数组流数据转换为超文本标记语言数据的步骤包括:提取所述字节数组流数据中对应于所述文本内容的文本数据;将所述文本数据保存在所述超文本标记语言数据的文本节点中;和/或,提取所述字节数组流数据中对应于所述图片内容的图片数据,其中,所述图片数据对应于至少一幅图片的图片内容;按照预设编码规则对所述图片数据进行编码;将编码后的图片数据保存在所述超文本标记语言数据的图片节点中,且每一幅图片对应占用一个图片节点。5.如权利要求4所述的文件内容提取方法,其特征在于,按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据的步骤包括:根据所述超文本标记语言数据的标识符,按照预设解析规则提取所述文本节点中的文本数据;根据所述文本数据生成第一文本文件,并将所述第一文本文件保存在第一指定路径;和/或根据所述超文本标记语言数据的标识符,按照预设解析规则提取所述图片节点中的图片数据;根据所述图片数据生成第一图片文件,并将所述第一图片文件保存在第二指定路径的图片列表中,其中,每一幅图片对应一个第一图片文件,每一个第一图片文件占据所述图片列表中的一项。6.如权利要求5所述的文件内容提取方法,其特征在于,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:读取所述第一文本文件;根据超文本标记语言规则,去除所述第一文本文件中的格式信息,生成第二文本文件;

将所述第二文本文件保存在第三指定路径。7.如权利要求5所述的文件内容提取方法,其特征在于,根据所述内容数据的数据类型,生成相应的内容文件的步骤包括:读取所述第一图片文件;按照预设解码规则对所述第一图片文件解码,生成第二图片文件;将所述第二图片文件保存在第四指定路径的图片列表中,其中,每一幅图片对应一个第二图片文件,每一个第二图片文件占据所述图片列表中的一项。8.一种文件内容提取设备,其特征在于,所述文件内容提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的文件内容提取方法的步骤。9.一种文件内容提取装置,其特征在于,所述文件内容提取装置包括:获取模块,用以获取便携式文档格式文件;转换模块,用以按照预设转换规则转换所述便携式文档格式文件为超文本标记语言数据;解析模块,用以按照预设解析规则解析所述超文本标记语言数据,以提取不同数据类型的内容数据;生成模块,用以根据所述内容数据的数据类型,生成相应的内容文件。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文件内容提取程序,所述文件内容提取程序被处理器执行时实现如权利要求1至7中任一项所述的文件内容提取方法的步骤。