1.一种基于智能问答的对外汉语口语训练方法,其特征在于,包括以下步骤:S1,采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
S2,汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
S3,接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序;
所述S1,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成;
所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布;
所述S2,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体‑关系‑实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分;
所述S3,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,S33,基于Ranking SVM的答案排序;
所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类;
所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体‑谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
2.根据权利要求1所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。
3.一种基于智能问答的对外汉语口语训练系统,其特征在于,包括:数据集构建模块,用于采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
知识图谱构建模块,用于汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
自然语言问答实现模块,用于接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序;
所述数据集构建模块,具体包括:S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成;
所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布;
所述知识图谱构建模块,具体包括:信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体‑关系‑实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分;
所述自然语言问答实现模块,具体包括:S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,S33,基于Ranking SVM的答案排序;
所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类;
所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体‑谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。