1.一种基于知识图谱的勘察规范智能问答系统的建立方法,其特征在于,具体按照以下步骤实施:步骤1、构建ER关系:设计勘察规范数据,包括实体集合、实体间属性和实体间关系的关系型数据库ER图,并将勘察规范数据采集存储至Excel表中;
所述步骤1具体如下:
步骤1.1、确定相关规范领域及范围;
步骤1.2、整理内容包括规范类型、规范内容和规范细则三部分内容,同时对规范类型与规范内容之间的对应关系、规范内容与规范细则之间的对应关系进行统一;
步骤1.3、在Excel表中建立规范类型数据表、规范内容数据表、规范细则数据表、规范内容与规范类型对应关系数据表和规范细则与规范内容对应关系数据表;
步骤2、数据库构建:将步骤1所采集的勘察规范数据结合关系型数据库ER图构建勘察规范关系数据库;
所述步骤2具体如下:
步骤2.1、打开Navicat Premium 15即开源软件MySQL数据库的可视化操作平台,将Navicat Premium 15与MySQL数据库连接,新建一个空的勘察规范关系数据库;
步骤2.2、将步骤1中构建的规范类型数据表、规范内容数据表、规范细则数据表、规范内容与规范类型对应关系数据表和规范细则与规范内容对应关系数据表导入步骤2.1新建的勘察规范关系数据库中;
步骤2.3、根据步骤2.2导入的关系数据,设置数据之间的字段类型、字段长度及添加主键;并且利用Navicat Premium 15中的索引和外键命令,设置规范内容与规范类型对应关系数据表和规范细则与规范内容对应关系数据表的索引关系,由此勘察规范关系数据库构建完成;
步骤2.4、将步骤2.3构建的勘察规范关系数据库以.sql脚本文件的形式进行保存;
步骤3、本体建模:基于所述步骤2得到的勘察规范关系数据库采用自顶向下的方法构建勘察规范领域本体;
所述步骤3具体如下:
步骤3.1、确定勘察规范类型、勘察规范内容和勘察规范细则三个实体及属性关系和数据关系,设定属性的类型,同时指定属性的特征以用于后续结合Jena工具进行知识推理,接下来使用开源软件Protégé完成勘察规范领域本体的构建;
步骤3.2、将构建的勘察规范领域本体进行形式化保存,保存时采用RDF/XML描述语言将构建的勘察规范领域本体进行保存;
步骤4、创建映射:采用W3C万维网联盟制定的映射标准,使用D2RQ工具根据所述步骤2得到的勘察规范关系数据库数据.sql文件生成mapping.ttl映射文件;
所述步骤4具体如下:
步骤4.1、利用第三方开源软件包D2RQ中generat mapping脚本文件调用步骤3得到的勘察规范关系数据库,即.sql文件,通过脚本文件的调用命令生成预定义的映射文件,即mapping.ttl文件;
步骤4.2、依据步骤3构建的勘察规范领域本体文件修改步骤4.1得到的映射文件:首先给本体的IRI设置前缀,即使用:http://www.kancha.com#criterion表示criterion,其他词汇同理;接下来还需将默认生成的映射词汇修改为本体中的词汇,得到修改后的mapping.ttl映射文件;
步骤4.3、使用脚本命令启动D2R Server对步骤4.2修改后的mapping.ttl映射文件进行校验:首先调用脚本文件运行勘察规范的映射文件,启动成功后,在浏览器通过“http://localhost:2020/”打开交互页面实现数据的访问,核查相关数据的完整性;
步骤5、用D2RQ工具提供的转换工具dump‑rdf将步骤4得到的映射文件转换为RDF格式数据,以“N‑TRIPLE”为默认格式进行数据储存;
步骤6、对关系数据库储存和管理:用Jena Fuseki组件通过网络接口导入RDF格式数据,并固化为TDB格式文件,运行fuseki‑server.bat,然后退出;
步骤7、规则推理:使用Jena的OWLFBRuleReasoner工具结合步骤3构建的勘察规范领域本体文件实现对步骤6中的RDF格式数据进行知识推理;
步骤8、正则语义解析:使用正则表达式对预设问题进行字符串层面的切分、组合、匹配,从而实现字符串的组合查询,也即问题的输入;
步骤9、Python语言实现问答系统构建:使用Python程序语言实现对RDF格式数据的交互,将对RDF数据检索和推理的结果进行可视化的展示。
2.根据权利要求1所述的一种基于知识图谱的勘察规范智能问答系统的建立方法,其特征在于,所述步骤7具体如下:步骤7.1、进入“apache‑jena‑fuseki‑3.17.0”文件夹,运行“fuseki‑server.bat”,然后退出,当前目录下自动创建“run”文件夹,将步骤3中得到的勘察规范领域本体文件移入run文件夹下的databases文件夹中,并将该本体文件后缀名由owl改为ttl;
步骤7.2、同样在databases文件夹下配置rules文件,定义推理的规则:rules文件的配置是跟据Jena中的RDFS、OWL和通用规则推理机,依据官方文档中定义的语法规则将所构建的本体实体之间的关系进行形式化和实例化,文件后缀为.ttl;
步骤7.3、在配置好rules文件后,在run文件夹下的configuration目录中配置fuseki_conf.ttl文件用以集合推理引擎,依据Jena官方的推理规则语言分别引用本体.ttl和rules.ttl文件的地址,并进行推理范围的说明,配置好上述文件后,再次启动fuseki‑server.bat服务,通过浏览器访问“http://localhost:3030/”,通过查询语句即实现对RDF数据的访问和推理。
3.根据权利要求2所述的一种基于知识图谱的勘察规范智能问答系统的建立方法,其特征在于,所述步骤8具体如下:步骤8.1、对输入问题的分词和实体识别:分词和实体识别使用jieba工具来完成,将所涉及到的先关勘察专业词汇作为外部词典;仔使用jieba的时候加载外部词典,从而能解决实体识别的问题;
步骤8.2、所述的正则表达式的具体方法为:将用户查询中的每个词作为对象,该对象具有两个基本属性即词汇和词性,利用开源工具REFO定义匹配规则,当拥有勘察专业词汇的组合出现时,一条规则匹配成功,执行预设的函数,针对每条用户查询,首先利用开源分词工具jieba对用户查询进行分词和词性标注,得到一个对象列表,其次与使用REFO定义的匹配规则逐一匹配;匹配成功,则执行对应的函数。