欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018115171453
申请人: 湖北工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于CTW和KM算法的语义相似度计算方法,其特征在于,包括:步骤S1:选择预设语料库,并通过预设词向量结合神经网络学习的方法训练,获得词向量空间,其中,词向量空间中的每个词向量用以表征该分词的语义信息;

步骤S2:将待比较文本与源文本进行分词,再根据所述词向量空间,分别建立与待比较文本、源文本对应的词分量数组;

步骤S3:依次计算待比较文本中的每个分词与源文本中的每个分词的CTW距离;

步骤S4:根据计算出的CTW距离构建CTW矩阵;

步骤S5:将分词对应的词分量,按照待比较文本、源文本分为第一集合和第二集合,其中,第一集合和第二集合中的每个词分量对应一个顶点,并根据顶点和CTW矩阵建立与待比较文本、源文本对应的第一超平面和第二超平面,再计算第一超平面与第二超平面之间的层间距离,同时求得第二超平面对应的映射法向量;

步骤S6:计算第二超平面对应的映射法向量与待比较文本中向量点的距离,将其作为平面内距离;

步骤S7:根据层间距离和平面内距离,计算待比较文本与源文本之间的相似度。

2.如权利要求1所述的方法,其特征在于,步骤S3具体包括:步骤S3.1:采用动态规划方法DTW中的预设公式计算Wx,Wy,该预设公式具体为:其中, 为求出的对齐X和Y的二元选择矩阵,矩阵Wx和Wy为对齐路径的编码;

步骤S3.2:在DTW的最小平方公式的基础上增加线性变换 最小平方公式具体为:

其中, b≤min(dx,dy),通过将序列投影到相同的坐标系中来参数化空间扭曲;

步骤S3.3:利用单位矩阵初始化Vx和Vy;

步骤S3.4:采用典型相关分析方法CCA计算Vx和Vy;

步骤S3.5:重复执行步骤S3.1,采用预设规则改变Wx、Wy、Vx和Vy的值,根据预设公式计算CTW距离值Jctw,当连续两次计算出的CTW距离值Jctw满足预设条件时,则取当前的Jctw作为CTW距离。

3.如权利要求1所述的方法,其特征在于,步骤S4具体包括:将步骤S3计算出的CTW距离对应的矩阵进行维度扩展,转换为n*n维的矩阵,其中,n=min{dx,dy},dx×dy为CTW距离对应的矩阵的大小。

4.如权利要求1所述的方法,其特征在于,步骤S5具体包括:步骤S5.1:初始化可行顶标的值,对两边的每一个顶点都赋予一个额外的值Lx(x)=max{w(x,yi)}i=1,2,....,dy,Ly(y)=0,使得对于二分图G内的所有边e=xiyj均有Lx(x)+Ly(y)≥w(xy),对于一个赋值二分图G(X,Y,E,W),X,Y代表二分图的两边顶点标号,E代表边的权值;

步骤S5.2:在已经赋值可行顶标的二分图中,保留所有Lx(x)+Ly(y)=w(xy)的边,删去其他的边,获得生成子图,再采用匈牙利算法KM寻找生成子图的完备匹配,其中完备匹配用以表示所有的顶点都是匹配点的图;

步骤S5.3:判断是否找到完备匹配,如果未找到,则通过修改可行顶标的值进行调整,继续执行步骤S5.2;

步骤S5.4:根据找出的完备匹配,求出二分图的最小路径覆盖的路径的最小值和最大值,将最小值和最大值作为层间距离的最小值和层间距离的最大值。

5.如权利要求4所述的方法,其特征在于,步骤S5.3中,通过修改可行顶标的值进行调整,具体包括:根据最后一次不成功的寻找交错路的深度优先遍历,取所有i被访问到而j没被访问到的边(i,j)的Lx(x)+Ly(y)-w(xy)的最小值d;

将交错树中的所有左端点的顶标减小d,右端点的顶标增加d。

6.如权利要求1所述的方法,其特征在于,步骤S7具体包括,通过距离计算公式计算待比较文本与源文本中向量的距离,距离计算公式具体为:其中,Dlayer-layer-min为层间距离的最小值,Dlayer-layer-max为层间距离的最小值,Dlayer-in-f'为平面内距离的最小值,Dlayer-in-max为平面内距离的最大值;

将待比较文本与源文本中向量的距离作为二者之间的相似度。

7.一种基于CTW和KM算法的语义相似度计算装置,其特征在于,包括:词向量空间获得模块,用于选择预设语料库,并通过预设词向量结合神经网络学习的方法训练,获得词向量空间,其中,词向量空间中的每个词向量用以表征该分词的语义信息;

词分量数组建立模块,用于将待比较文本与源文本进行分词,再根据所述词向量空间,分别建立与待比较文本、源文本对应的词分量数组;

CTW距离计算模块,用于依次计算待比较文本中的每个分词与源文本中的每个分词的CTW距离;

CTW矩阵构建模块,用于根据计算出的CTW距离构建CTW矩阵;

层间距离计算模块,用于将分词对应的词分量,按照待比较文本、源文本分为第一集合和第二集合,其中,第一集合和第二集合中的每个词分量对应一个顶点,并根据顶点和CTW矩阵建立与待比较文本、源文本对应的第一超平面和第二超平面,再计算第一超平面与第二超平面之间的层间距离,同时求得第二超平面对应的映射法向量;

平面内距离计算模块,用于计算第二超平面对应的映射法向量与待比较文本中向量点的距离,将其作为平面内距离;

相似度计算模块,用于根据层间距离和平面内距离,计算待比较文本与源文本之间的相似度。

8.如权利要求7所述的装置,其特征在于,CTW距离计算模块具体用于执行下述步骤:步骤S3.1:采用动态规划方法DTW中的预设公式计算Wx,Wy,该预设公式具体为:其中, 为求出的对齐X和Y的二元选择矩阵,矩阵Wx和Wy为对齐路径的编码;

步骤S3.2:在DTW的最小平方公式的基础上增加线性变换 最小平方公式具体为:

其中, b≤min(dx,dy),通过将序列投影到相同的坐标系中来参数化空间扭曲;

步骤S3.3:利用单位矩阵初始化Vx和Vy;

步骤S3.4:采用典型相关分析方法CCA计算Vx和Vy;

步骤S3.5:重复执行步骤S3.1,采用预设规则改变Wx、Wy、Vx和Vy的值,根据预设公式计算CTW距离值Jctw,当连续两次计算出的CTW距离值Jctw满足预设条件时,则取当前的Jctw作为CTW距离。

9.如权利要求7所述的装置,其特征在于,CTW矩阵构建模块具体用于执行下述步骤:将步骤S3计算出的CTW距离对应的矩阵进行维度扩展,转换为n*n维的矩阵,其中,n=min{dx,dy},dx×dy为CTW距离对应的矩阵的大小。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至6任一项权利要求所述的方法。