1.一种基于语义分析的业务识别系统,包括检索文本预处理模块、专利文本分类分析模块、检索结果推荐模块,其特征在于:所述检索文本预处理模块,用于对用户检索的专利文本进行预处理;所述专利文本分类分析模块,用于针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析;所述检索结果推荐模块,用于利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐;
所述检索文本预处理模块包括:检索式生成模块、词向量获取模块、无向图构建模块;所述检索式生成模块,用于利用获取的检索关键词自动智能生成标准检索式;所述词向量获取模块,用于通过BERT训练获得训练集词向量;所述无向图构建模块,用于根据量化后得到的关键词向量表构建一个基于关键词的无向图;
所述专利文本分类分析模块包括:关系特征泛化模块、领域本体构建模块、卷积神经网络训练模块、相似度匹配值计算模块,所述关系特征泛化模块,用于利用文本编码对字符级、词级、句子级的关系特征进行泛化;所述领域本体构建模块,用于采用字符串匹配的方式进行主题概念的抽取,将符合的字符串作为概念节点构建领域本体;所述卷积神经网络训练模块,用于利用字符级卷积神经网络将预处理后的训练集词向量输入卷积神经网络中进行训练;所述相似度匹配值计算模块,用于确定两个文本之间的相似关系并计算获得度量专利文本的相似度匹配值;
所述检索结果推荐模块包括:关联强度计算模块、相关性评分计算模块、检索结果排序输出模块,所述关联强度计算模块,用于利用相似度匹配值计算专利文本间的关联强度;所述相关性评分计算模块,用于综合计算出每个候选推荐专利中的相关性评分;所述检索结果排序输出模块,用于结合两次相关性评分得到最终的排序结果,进行排序推荐;
所述业务识别系统运行的方法步骤,包括:
步骤一:对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集;
步骤二:基于量化后得到的关键词向量表,利用文本编码对字符级、词级、句子级的关系特征进行泛化;
步骤三:针对生成的检索词集和扩展的扩展词集进行专利文本的分类分析,获取最显著的特征;
步骤四:利用相似度匹配值计算专利文本间的关联强度,输出检索对比结果的推荐;
所述对用户检索的专利文本进行预处理,提取关键词生成检索词集和扩展词集的实施方式包括:步骤11:获取用户输入的检索关键词及检索方式,即利用获取的检索关键词自动智能生成标准检索式;
步骤12:对检索的专利文本进行数据预处理,提取关键词生成检索词集,利用检索词集通过关键词网络进行检索扩展获得扩展词集,并通过BERT训练获得训练集词向量;
步骤13:根据量化后得到的关键词向量表构建一个基于关键词的无向图,表示关键词与词之间的关系,利用预处理后的词向量构建专利文本关键词网络;
所述进行泛化的过程步骤包括:
步骤21:专利文本包含多种信息类型,包括专利内容,引用关系和时间顺序,根据包含的信息类型信息构成专利文本之间的关系特征;
步骤22:根据量化后得到的关键词向量表确定专利文本的领域主题;
步骤23:采用字符串匹配的方式进行该主题概念的抽取,将符合的字符串作为概念节点构建领域本体;
步骤24:利用自然语言处理的方法从待检索的非结构化专利文本中提取概念,进行概念检索;
步骤25:通过相关度方法计算对概念进行筛选,获取概念以及概念之间的关系;
步骤26:最后利用BERT获得专利文本特征,在提取匹配信息时使用RNN对专利文本上下文进行编码,利用卷积网络提取词项之间的依赖关系,形成基于量化后的字符级、词级、句子级间关系特征;
所述进行专利文本的分类分析步骤,包括:
步骤31:利用字符级卷积神经网络将预处理后的训练集词向量输入卷积神经网络中进行训练,提取输出训练集的专利文本特征;
步骤32:通过softmax分类器进行分类;
步骤33:再利用卷积神经网络中的卷积滤波器对输入的文本特征进行卷积,获得文本特征,提取出专利文本的局部特征;
步骤34:利用卷积神经网络设置不同长度的卷积核,将词向量和卷积公式做乘积,做最大值池化将卷积层结果中输出的最大值作为最显著的特征;
步骤35:通过文本卷积神经网络将查询的专利文本和相关的专利文本分别作为模型的输入,得到两个相同维度的中间向量,确定两个文本之间的相似关系并计算获得度量专利文本的相似度匹配值;
所述进行检索对比结果的推荐的过程步骤,包括:
步骤41:利用语义相似度和引用关联定义专利间的技术关联及技术重叠度;
步骤42:利用相似度匹配值计算专利文本间的关联强度,专利文本间的相似度越高,之间的关联越强;
步骤43:通过相似度匹配值获取候选推荐专利中涉及的技术关键词,然后根据用户在检索时输入的检索关键词,综合计算出每个候选推荐专利中的相关性评分,并将其作为一次评分,依据此次评分并行的从多个分片中取出候选结果;
步骤44:根据获取到含有技术关键词的句子,将其放入检索系统中进行检索,取出相关性评分前n项的专利作为候选推荐专利,取出候选专利的权利要求书中每一项主权利要求与含有技术关键词的对比文件做相似度比较;
步骤45:基于每个分片中选出一次评分排名前n的专利作为此次检索最佳候选项,然后从排名前几项的候选结果根据候选结果添加其权重,计算二次相关性评分,结合两次相关性评分得到最终的排序结果,进行排序推荐。