欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018114540249
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于词语关系能量最大化的词向量学习方法,其特征在于,包括以下步骤:

1)、对语料库进行分词并对每个词语的词向量随机初始化;

2)、对分好词的语料库进行滑窗操作并构建词共现矩阵;

3)、将词语与词语之间的能量用步骤1)随机初始化后的词向量计算表示;

4)、将滑窗中目标词与上下文词的能量用步骤2)词共现矩阵中的值近似替代;

5)、根据步骤3)和步骤4)对所有滑窗内构建能量求和公式,目标词对窗口内每一个上下文词的能量表示成:目标词与整个语料库其它所有词的关系能量与其它所有词分别与该上下文词的能量乘积求和,再对整个语料库滑窗将所有滑窗内能量极大化,并不断优化目标词的词向量;

6)、对公式进行转换使极大化语料库能量转变成用词向量内积去拟合能量矩阵;

7)、将词向量内积拟合能量矩阵替换成对能量矩阵进行矩阵分解得到词向量。

2.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤1)对语料库分词并对每个词语的词向量随机初始化包括:使用深度学习词向量常用的英文数据集text8作为语料库,或者使用维基百科中文语料库,对语料库进行分词,然后对这些分好的词随机初始化词向量,随机初始化成0到1之间的正态分布或均匀分布的词向量,向量维度设置为50维至300维。

3.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤2)对分好词的语料库进行滑窗操作并构建词共现矩阵包括:对整个语料库从头开始进行滑窗操作,窗口大小设置为5至20个词;对整个语料库构建词共现矩阵,矩阵的第i行第j列表示滑窗过程中所有窗口内索引i对应词语与索引j对应词语的在窗口内共同出现次数。

4.根据权利要求1所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤3)将词语与词语之间的能量用步骤1)随机初始化后的词向量计算表示,具体包括:使用s(w,j)表示词语w与词语j的能量,值越大表示两个词语义越近似,而在向量空间这个值就越大,规定 vwvj表示词向量vw与词向量vj的内积,vm、vn表示任意两个词向量,c表示语料库的所有词,即分母是归一化因子,表示所有词的词向量两两内积求和,加入归一化因子是防止两个词向量内积在优化中无穷大,使公式 最大值为1,最开始用随机初始化的词向量表示成s(w,j),然后通过极大似然估计再不断反向梯度更新词向量。

5.根据权利要求4所述的基于词语关系能量最大化的词向量学习方法,其特征在于,公式 中,因为 最大值为1,则s(w,j)的最大值为0,得出词语自己与自己的近似度即s(w,w)是最大,在这里为0,是因为我们认为在优化的过程中自身与自身的优化是没有必要的,所以使得s(w,w)为0,即s(w,w)的词向量优化与s(w,w)前的系数没关系。

6.根据权利要求5所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤4)将滑窗中目标词与上下文词的能量用词共现矩阵中的值近似替代具体包括:在一个滑窗内,处于中心位置的词称为目标词,其它位置的词称为上下文词,使用g(c|w)表示窗口内目标词与上下文词的能量,这里用词共现矩阵中词w和词c的共现次数近似替代,g(c|w)越大,则能量越大。

7.根据权利要求6所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤5)对所有滑窗内构建能量求和公式并极大化整个语料库的能量进而不断优化目标词的词向量具体包括:能量求和公式为:其中,w为窗口内的目标词,c为窗口内的上下文词,j为整个语料库里的其它所有词,g(c|w)代表词目标词w对上下文词c的能量,s(w,j)代表词w与词j的关系能量,G是整个语料库滑窗统计得到的词共现矩阵,G(c,w)即词c和词w在所有滑窗里共同出现的总次数,因为对整个语料库滑窗的过程中,对于同一词对w,c,当w和c在一个窗口内出现一次,方括号里的能量求和公式就被计算一次,所以整个滑窗过程同一词对w,c的能量公式会被计算多次,计算的次数就等于w和c的共现次数,所以需要乘上G(c,w),整个公式中,G(c,w),g(c|w),g(c|j)是通过语料库统计得到,s(w,j)是用词向量表示,是需要优化的变量,最终通过极大化Q来不断梯度更新得到表示成最终的词向量vw、vj。

8.根据权利要求7所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤6)对公式进行转换使极大化语料库能量转变成用词向量内积拟合能量矩阵包括:令

最大化Q即最大化Q2,转化Q2公式并极大化Q2,根据语料库计算得到能量矩阵e,其中则公式最终转化成词向量的内积去拟合能量矩阵e的每一个元素。

9.根据权利要求8所述的基于词语关系能量最大化的词向量学习方法,其特征在于,所述步骤7)将词向量内积拟合能量矩阵替换成对能量矩阵进行矩阵分解得到词向量包括:通过对语料库进行统计计算得到能量矩阵e,并将e通过奇异值分解(svd)进行矩阵分解得到词向量。