欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020103705438
申请人: 厦门理工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,融合SH-CNN和TF-IDF技术,来计算用户输入问句和系统问题模板之间的文本相似度,包括以下步骤:步骤P1,文本预处理:将训练SH-CNN模型的问句语料进行分词,对分词结果中出现的所有单词建立一个词典V,并将每个单词都编码一个唯一的索引号;将问句语料中的每个句子都加长到最大句子的长度,再将每个句子都转换成词向量矩阵;

步骤P2,将问句语料中包含的所有问题对的词向量矩阵分批依次输入SH-CNN中,获得训练后的SH-CNN模型;

步骤P3,将用户输入问句和系统中所有问题模板进行分词,得到的每个单词均从步骤P1生成的词典V中取出唯一的索引号,再将包含单词索引号的每个句子都加长到最大句子的长度,然后将每个句子都转换成词向量矩阵,获得用户输入问句的词向量矩阵和系统中所有问题模板的词向量矩阵;

步骤P4,将所述用户输入问句的词向量矩阵,每次结合一个问题模板的词向量矩阵,依次输入所述训练后的SH-CNN模型,计算用户输入问句与每个问题模板之间的文本相似度,获得列表L1;

步骤P5,为每个问题模板设置一个文件,所述问题模板和所述文件一一对应;所述文件包含其对应模板中出现的一些重要单词及包含这些重要单词的短语或短句,同时剔除一些对于确定问句类型没有帮助的单词;然后利用TF-IDF计算用户输入问句与每个问题模板之间的文本相似度,获得列表L2;

步骤P6,将步骤P4、P5中获得的列表L1、L2中的值相加,获取文本相似度融合列表L3;根据L3中最大值所对应问题模板的问题类型,确定用户输入问句的问题类型。

2.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P1中,利用中文分词工具jieba对训练SH-CNN模型的问句语料进行分词;步骤P3中,利用中文分词工具jieba对用户输入问句和系统中所有问题模板进行分词。

3.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P3中,所述将每个句子都加长到最大句子的长度,其中,句子的被加长部分使用字符“”来填充,每个字符“”对应一个单词长度;对于用户输入问句和系统中所有问题模板进行分词后得到的未出现在词典V中的单词,也以字符“”来填充;每个句子都表示为文本序列S=(x1,x2,...,xi,...,xm),xi代表构成文本序列S的第i个单词,m表示最大句子的长度。

4.根据权利要求3所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P3中,所述将每个句子都转换成词向量矩阵,具体为,使用训练好的word2vec模型将每个句子都转换成SH-CNN可以处理的词向量矩阵 其中代表单词xi的词向量。

5.根据权利要求4所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P4中,所述训练后的SH-CNN模型,使用一个共享层来对用户输入问句的词向量矩阵和系统中的问题模板的词向量矩阵进行映射和处理;所述共享层包括卷积层和池化层;SH-CNN模型的卷积公式为 其中, 表示文本序列S中第i个单词到第j个单词所组成的词向量矩阵, 为卷积核, b是偏差向量;

取 与 的点积,以获得一个新的一维特征向量C*={C1,C2,...,Ci,...,Cm-j+i},Ci代表卷积核每一步滑动过程中产生的局部特征值;卷积后,得到k个C*,k为SH-CNN模型在训练时初始化的卷积核种类数;

池化层中,采用max-pooling对C*中的特征点取最大值,并将获取的k个最大值进行拼接,获取一个结构为k×1维的向量作为本层的输出。

6.根据权利要求5所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,所述训练后的SH-CNN模型,还包括全连接层;池化层输出的k×1维的向量在全连接层中进行dropout,以增加SH-CNN模型的泛化能力。

7.根据权利要求5所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,全连接层中,使用Sigmoid函数接受经过dropout后的用户输入问句的向量和问题模板的向量,计算用户输入问句和问题模板的相似度值,得到列表L1。

8.根据权利要求5所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,卷积核 的大小定为3,表示卷积核一次会处理文本序列S中的3个相邻单词所组成的3×n的局部词向量矩阵,其中n代表单词的向量维度。

9.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P4中,列表L1中的所有相似度值都是0-1之间的浮点数,与各个问题模板一一对应,表示用户输入问句与问题模板之间的相似程度。

10.根据权利要求1所述的面向医疗领域的中文智能问答短文本相似度计算方法,其特征在于,步骤P5中,利用TF-IDF计算用户输入问句与每个问题模板之间的文本相似度的公式包括:其中分子ni,j表示用户输入问句中包含的重要单词t在一个问题模板所对应文件F中出现的次数,分母Σknk,j表示文件F中所有单词出现次数的总和;

其中分子|D|是问句语料库中的文件总数,分母|{j:ti∈dj}|表示问句语料库中包含重要单词t的文件数目;

tfidfi,j=tfi,j×idfi,

tfidfi,j为用户输入问句与问题模板的相似度;

通过TF-IDF技术,获得用户输入问句与所有问题模板间的文本相似度列表L2。