1.一种基于知识图谱查询的并行抽取方法,其特征在于,包括:步骤一:提取数据源的URL,获取对应的文本页面;
步骤二:对所述文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对所述文本页面抽取所需要的实体关系;
步骤三:汇总多个所述规则块的匹配结果,输出对所述文本页面的抽取结果。
2.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤一中,还包括:若所述数据源仅具有单个URL,直接获取该单个URL对应的文本页面;若所述数据源具有多个URL,调用爬取程序获得该多个URL分别对应的文本页面。
3.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面的内容进行过滤的过程包括:根据不同的属性和语义设置若干个筛选词,遍历每一句所述文本页面的内容,比较每一句所述文本页面的内容所包含的实体词与所述筛选词的相似度,若所述相似度低于阈值,则将若干个所述实体词定义为触发词,若所述相似度等于或高于阈值,则将所述文本页面的内容中与所述筛选词相似的实体词删去。
4.如权利要求3所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面进行分词处理的过程包括:对若干个所述触发词进行分类,每一类所述触发词对应唯一的词性标签。
5.如权利要求4所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,所述信息匹配的过程包括:设置关键词及所述关键词的类别标签,先将所述触发词的词性标签与所述关键词的类别标签进行匹配,若匹配度等于或高于阈值,再将所述触发词与所述关键词进行匹配,并将匹配成功的所述触发词标注为目标词。
6.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:对所述关键词基于语义相似度进行同义拓展,再将所述触发词与同义拓展的关键词进行匹配。
7.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤三中,汇总多个所述规则块的匹配结果的过程包括:对于匹配成功的所述关键词,对所述关键词的匹配次数加1,再对若干个所述关键词按匹配次数进行排序,形成规则集。
8.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:在预设的多个规则块中调用自建程序和/或自动程序并行地运行信息匹配,所述自建程序采用构建的正则表达式进行信息匹配,所述自动程序采用构建的搜索表达式进行信息匹配。
9.如权利要求8所述的基于知识图谱查询的并行抽取方法,其特征在于,采用构建的搜索表达式进行信息匹配的过程包括:设置特征词及其对应的属性值作为所述搜索表达式,从所述文本页面中获取所述搜索表达式对应的搜索结果,并对所述搜索结果进行标注。
10.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤三中,还包括:分别采用准确率、召回率、F1分数作为所述抽取结果的评价指标,验证并行抽取的质量。