欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022102520683
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于知识图谱的智能问答意图识别方法,其特征在于,包括如下步骤:

步骤S1:基于词典与命名体识别模型相结合的实体抽取;具体包括如下步骤:

步骤S11:构建词典;从高速列车领域知识图谱中导出所有实体形成实体词典;手工构建实体的相关同义词形成同义词词典;从高速列车领域知识图谱中导出所有本体标签形成本体标签词典;

步骤S12:构建命名体识别模型以对实体进行初步抽取;通过对高速列车领域各阶段原始数据进行实体标注,将输出形成的标注数据输入到bert‑bilstm‑crf命名体识别模型中进行模型训练,完成命名体识别模型的构建;模型构建完成后,将用户问句输入bert‑bilstm‑crf命名体识别模型中,通过字嵌入的方式依次经过bert层、双向循环神经网络层和crf层,得到用户问句的序列标注结果,并依据序列标注结果输出用户问句中所含的预期实体,完成实体的初步抽取;

步骤S13:在得到实体抽取的初步结果之后,将抽取出来的预期实体代入到实体词典、同义词词典以及本体标签词典中进行字符串匹配,如果预期实体能够与词典中某一词语完全匹配,则将它作为最终实体输出,否则进行编辑距离和余弦相似度的计算,将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体;

步骤S2:基于问题浅度判定与问题深度判定结合的问题种类判定;具体包括如下步骤:

步骤S21:问题浅度判定;首先对用户输入的用户问句进行分词以及停词,将用户问句转换为相关词的词序列,对词序列分别进行句型特征、用户特征以及词向量特征的提取以及融合,并将三个特征融合而成的向量作为用户问句的特征总向量输入到分类模型进行问题方向的预测,输出语义方向标签;

步骤S22:问题深度判定;将步骤S21中所得到的语义方向标签与模板库进行匹配,当匹配到相应的模板库后提取出模板库内的问句模板;然后将用户问句作句法分析和词性标注,得到用户问句的词性句法分析树,将其与提取出来的问句模板进行相似度匹配,并将相似度最大的问句模板所对应的查询模板作为用户问句的查询模板,实现查询映射;

步骤S3:组装查询语句;将步骤S1中抽取的实体与步骤S2中所对应的查询模板进行组装,将查询模板中的变量替换成实体,形成可以用于检索知识图谱的标准查询语句,标准查询语句即代表了用户的最终意图,后续将标准查询语句代入知识图谱进行检索便可以得到与用户问题相关的结果,实现高速列车领域用户意图的最终识别;在插入同类型实体时,结合高速列车结构树以及高速列车领域知识图谱结构,将同类型实体转换为其知识图谱类的本体标签,依据结构树的层级将本体标签层级低的实体替换查询语句中靠前的变量,实现同类型实体的插入;其中,结构树层级由高到低依次划分为系统、子系统、部件、零件。

2.如权利要求1所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体,包括如下步骤:步骤S131:计算初步抽取的预期实体与词典中词语的编辑距离,其计算公式如下:

式中:leva,b(i,j)代表预期实体与词典中词语的编辑距离;a是初步抽取的预期实体;b是词典中所包含的词语;i代表预期实体a的字符串下标,从0开始;j代表词语b的字符串下标,从0开始;Max(i,j)代表i和j之间的最大值,Min(i,j)代表i和j之间的最小值;ai≠bj代表a的第i个字符与b的第j个字符不相同的情况;

步骤S132:判断预期实体与词典内每一个词语各自的编辑距离是否大于最小阈值,若大于最小阈值,则进一步计算词典内大于所述最小阈值的词语与预期实体之间的余弦相似度,其计算公式如下:式中:similarity(W,V)是初步抽取的预期实体和词典中词语的余弦相似度;W是初步抽取的预期实体预训练词向量;V是词典中所包含的词语预训练词向量;Wi是初步抽取的预期实体的预训练词向量第i个参数;Vi是词典中包含的词语的预训练词向量第i个参数;n是预训练词向量的维度;

步骤S133:将词典中同时满足编辑距离大于最小阈值以及余弦相似度最高的词语作为抽取的最终实体,其计算公式如下:式中:S为自然语言问句;Owl(S)为问句中的最终实体;a为初步抽取的预期实体个数;c为词典的总词数;d为余弦相似度计算的结果总数;Similarity(Si,Bj)为问句中第i个词与词典中第j个词的相似度;Xd代表第d组词的相似度运算结果;levSi,Bj(m,n)为问句中第i个词与词典中第j个词的编辑距离;Si代表问句中的i个词;len(Si)为问句中第i个词的长度;

Bj代表词典中第j个词;len(Bj)为词典中第j个词的长度;[]为取整符号;!Bj代表词典中第j个词非最终实体;

步骤S134:将词典内与每一个预期实体匹配的词语作为实体抽取的最终实体的集合;

如果某一预期实体的编辑距离或者相似度中任意一个未达标,则认为命名体识别模型错误的识别了预期实体,并将该预期实体剔除。

3.如权利要求2所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S21具体包括:步骤S211:分词及停词;将用户问句输入jieba分词器进行分词处理;其中,将预先构建好的词典输入分词器中完成领域专有名词的识别;将分词后的分词序列输入到停词表中,如果某一词在停词表内,则将其视为非核心词去除,保留用户问句的主要成分形成用于特征提取的词序列;所述预先构建好的词典包括:从高速列车领域知识图谱中导出所有实体形成的实体词典;手工构建实体的相关同义词形成的同义词词典;从高速列车领域知识图谱中导出所有本体标签形成的本体标签词典;

步骤S212:特征提取及融合;将步骤S211中获得的词序列转化为词向量特征、句型特征以及用户特征三方面的特征词向量形式并将其融合为特征总向量;其中,词向量特征表示问句词语级的特征,由预训练词向量得来;句型特征表示问句句子结构的特征,由词序列的词性序列得来;用户特征表示用户级的特征,由用户信息、用户日志得来;

步骤S213:将用户问句转换为特征总向量的形式后,将特征总向量输入到分类模型里进行问题类别预测,最终输出用户问句的语义方向标签;其中,分类模型选用svm支持向量机。

4.如权利要求3所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S22具体包括:步骤S221:构建问句模板以及查询模板以形成与语义方向标签对应的模板库;其中,问句模板用于匹配用户问句深层语义,查询模板用于实现查询映射;

步骤S222:匹配模板库;将步骤S213中输出的语义方向标签用作模板库匹配的依据,当匹配到储存有相同语义方向标签的模板库后,输出模板库中所有的问句模板用于用户问句匹配;

步骤S223:句法分析及词性标注;对用户问句做句法分析得到句法分析结果,然后再对用户问句做词性标注得到词性序列,替换句法分析结果中非实体节点为对应词性标签,替换实体节点为对应本体,得到用户问句的词性句法分析树;

步骤S224:问句模板匹配;将步骤S223中得到的用户问句的词性句法分析树与步骤S222中提取的问句模板依次进行相似度匹配,将相似度最大的问句模板作为用户问句所匹配上的对象;

步骤S225:查询映射;将步骤S224中匹配到的相似度最大的问句模板对应的查询模板提取出来,将其作为用户问句的查询模板,实现查询的转换。

5.如权利要求4所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S212具体包括:步骤S2121:将预训练词向量导入分词、停词后形成的词序列中,并将词序列中每个词的预训练词向量加权平均后得出用户问句的词向量特征w_vector(A),其计算公式如下:式中:A为分词、停词后的词序列;w_vector(A)为A的词向量特征;i为A的序列长度;n表示词向量的维度;Asn表示A中第s个词的词向量第n个位置的数值;

步骤S2122:采用ltp词性标注工具对用户问句做词性标注后由词性替换用户问句中的词语得到问句的词性序列,将词性序列代入句型词典中进行匹配,根据匹配到的索引确定问句的句型向量,如果在句型词典中无匹配项,则在句型向量最后一位之后补位并置1,得到用户问句的句型特征s_vector(A),其计算公式如下:式中:A为分词、停词后的词序列;s_vector(A)为A的句型特征;pos(A)代表A词性标注的结果;dict代表句型词典;n代表句型词典的长度;dict(n)代表词典中最后一个句型;

代表已成功匹配并舍弃该补位;

步骤S2123:根据用户信息、用户日志获取用户特征u_vector(A);其中,用户信息来源于用户身份,以用户身份的个数作为特征向量维度;用户日志由问题类别数作为向量维度,以用户是否搜索过某类问题作为数值;

步骤S2124:特征融合;采用直接拼接的方式将词向量特征、句型特征以及用户特征融合成特征总向量,其计算公式如下:vector(A)=(w_vector(A),s_vector(A),u_vector(A))

式中:A代表分词、停词后的词序列;w_vector(A)为A的词向量特征;s_vector(A)为A的句型特征;u_vector(A)为A的用户特征;vector(A)为A的特征总向量。

6.如权利要求5所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S221包括:步骤S2211:句法分析;利用哈工大ltp句法分析工具对训练问句进行句法分析操作,将训练问句输入到ltp句法分析工具当中,并输出该训练问句中各词语间的句法关系;

步骤S2212:词性标注;利用哈工大ltp词性标注工具对训练问句进行词性标注操作,将训练问句输入到ltp词性标注工具当中,并输出训练问句每个词对应的词性标签组成的词性序列;

步骤S2213:实体去除;将训练问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成词性句法分析树,得到问句模板;

步骤S2214:实体抽取;为训练问句补充上相对应的知识图谱中的答案,并且依据实体抽取识别出训练问句以及其对应答案中的实体;

步骤S2215:构建查询图;将步骤S2214中问句实体以及答案实体用作知识图谱检索的条件,检索出在知识图谱中包含两个实体的最小连通图,将该最小连通图作为该条训练语句的查询图;

步骤S2216:实体去除;将步骤S2215中查询图中的问句实体节点依据其实体类型变为可替换的变量节点,实体类型包括结构实体、故障实体、原因实体、维修方法实体以及本体标签;将答案实体节点替换成其在知识图谱中对应本体,得到训练问句对应的查询模板。

7.如权利要求6所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S223具体包括:步骤S2231:用户问句的句法分析;利用哈工大ltp句法分析工具对用户问句进行句法分析操作,将用户问句输入到ltp句法分析工具当中,并输出该用户问句中各词语间的句法关系;

步骤S2232:用户问句的词性标注;利用哈工大ltp词性标注工具对用户问句进行词性标注操作,将用户问句输入到ltp词性标注工具当中,并输出用户问句每个词对应的词性标签组成的词性序列;

步骤S2233:实体去除;将用户问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成用户问句的词性句法分析树。

8.如权利要求7所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S224还包括:采用树编辑距离计算相似度,根据同层之间节点插入、删除、修改的总步数作为树编辑距离,树编辑距离越小则其相似度越大,其计算公式如下:s=max(dep(X),dep(D))

式中:X代表用户问句词性句法分析树;D代表问句模板;lev_tree(X,D)代表X与D之间的树编辑距离;s代表X与D之间的最大树高;Xi,Di代表X和D的第i层;dn(Xi,Di)代表Xi转换成Di需要删除的节点个数;in(Xi,Di)代表Xi转换成Di需要插入的节点个数;mn(Xi,Di)代表Xi转换成Di需要修改的节点个数;dr(Xi,Di)代表Xi转换成Di需要删除的边个数;ir(Xi,Di)代表Xi转换成Di需要插入的边个数;mr(Xi,Di)代表Xi转换成Di需要修改的边个数;dep(X)、dep(D)代表树X和树D的高度。