1.一种分析文本数据潜在主题短语的方法,其特征在于,该方法包括:(1)采集文本数据集,并对所述文本数据集进行分词,得到文本数据集的词语表现形式;
(2)根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;
(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;
(4)构建基于词向量的短语主题模型DR-Phrase LDA并求解各个参数;
(5)对所述DR-Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。
2.根据权利要求1所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(2)中,所述有效短语包括n元短语,n元为组成短语的词语个数,所述根据文本数据集的词语提取词语搭配后形成的有效短语,具体包括:(21)统计文本数据集的双词语或短语搭配共现频率,构成二元短语候选集;
(22)计算二元短语候选集score(wi,wj)分值,选取分值高的前m个构成正式的二元短语,并加入到短语集中,同时在步骤(1)所述的文本数据集的词语表现形式中更新相应的词语为所得短语;
(23)迭代步骤(21)(22)计算得到的所述二元短语与其他词语或短语搭配组成的n元短语,依次加入到短语集中。
3.根据权利要求1所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(4)中,DR-Phrase LDA模型为概率生成模型,DR-Phrase LDA实现文本生成的过程为:首先文本数据集D中有M篇文本,从超参数为α的狄利克雷分布中取样生成文本d的主题分布θd;
从主题的多项式分布θd中取样生成文本d中词语或短语的主题参数z,主题编号记为zmn;从超参数为β狄利克雷分布中取样生成主题z相应的词语或短语分布 其中,所有文本共享K个主题;从词语的多项式分布 中采样生成词语或短语t。
4.根据权利要求3所述的分析文本数据潜在主题短语的方法,其特征在于,所述词语或短语的主题参数z的计算采用吉布斯采样近似求解方法完成,表示为:其中,采样过程中文档d当前位置词语或者有效短语表示为t,记为term,k表示被分配的主题编号,K为预设的主题个数,Nt为文本数据集中的总term数,nk/d表示文档d中主题k的计数,nt/k表示主题k中t的计数,nr表示t的语义相关term的个数,ntr表示t的相关term个数,α和β为Dirichlet超参数,α,β分别为α和β对应的向量。
所述文本数据集中的某篇文本d中潜在的主题比例θd表示为:所述编号为k的主题所包含term概率 值表示为:
5.根据权利要求4所述的分析文本数据潜在主题短语的方法,其特征在于,所述步骤(5)中,包括:(51)对所述DR-Phrase LDA模型训练,训练步骤包括:输入:未搭配成有效短语的词语与短语集的混合表现形式的文本数据集,已训练所得的词向量模型及DR-Phrase LDA模型的狄利克雷分布超参数α,狄利克雷分布超参数β,主题个数K;迭代次数IterNum;短语wp语义相似度最大的前γ个对应的取值;短语wp的长度计数调节参数μ;
训练过程:
遍历文本数据集中每个文本中的词语或有效短语t对应的编号;
若t为有效短语,则增加所述短语wp被抽到主题k后的计数C(wp);同时遍历与wp语义相似度最大的前γ个词集,并相应增加该词集中所有词分配到主题k下的计数C(wi);
否则,若t为实词词语,且存在语义相关短语,则增加词语t在主题k的计数C(w),同时增加该词语作为语义背景的有效短语 在主题k下的计数否则,若t为虚词词语,则对应的计数减1;
迭代上述步骤至设定的次数IterNum;
输出:文本数据集中的所有词语和有效短语的主题编号二维矩阵z;
(52)根据训练结果输出文本数据潜在的主题短语,具体包括:根据某篇文本d中潜在的主题比例θd统计可得每一篇文本的主题比例概率值矩阵θ:θ={θ(m,k),m∈{0,..M-1},k∈{0,..K-1}}其中,M为文本数据集文本总的文本数量;K为主题数。
根据编号为k的主题所包含term概率 值统计可得每个主题与term的概率值矩阵其中,Nt为文本数据集的总term数。
6.根据权利要求5所述的分析文本数据潜在主题短语的方法,其特征在于,所述有效短语wp被抽到主题k的计数C(wp),表示为:C(wp)=μlen(wp)
其中,μ为大于等于1的整数,调节参数len(wp)为有效短语wp的长度。
所述有效短语wp对应的短语语义相关词wi分配到主题k下的计数C(wi),表示为:其中,Int()表示取整数,Sim(wi wp)表示在词语wi与有效短语wp通过词向量计算的相似度;
所述词语w在主题k的计数C(w),表示为:
其中, 表示在词语w对应的词向量与词语对应的有效短语 对应的词向量之间的相似度;
所述以词w作为语义背景的有效短语 在主题k下的计数 表示为:
7.一种根据权利要求1-6任一项所述的分析文本数据潜在主题短语的方法实现的系统,其特征在于,所述系统包括:预处理模块,用于采集文本数据集,并对所述文本数据集进行分词,得到文本数据集的词语表现形式;
短语提取模块,用于根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;
词向量构建模块,用于对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;
模型构建模块,用于构建基于词向量的短语主题模型DR-Phrase LDA并求解各个参数;
结果输出模块,用于对所述DR-Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。
8.根据权利要求7所述的分析文本数据潜在主题短语的系统,其特征在于,所述短语提取模块中,包括:候选集统计单元,用于统计文本数据集的双词语或短语搭配共现频率,构成二元短语候选集;
二元短语计算单元,用于计算二元短语候选集score(wi,wj)分值,选取分值高的前m个构成正式的二元短语,并加入到短语集中,同时在候选集统计单元所述的文本数据集的词语表现形式中更新相应的词语为所得短语;
短语集生成单元,迭代候选集统统计单元以及二元短语计算单元,并计算得到的所述二元短语与其他词语或短语搭配组成的n元短语,依次加入到短语集中。
9.根据权利要求7所述的分析文本数据潜在主题短语的系统,其特征在于,所述模型构建模块中,DR-Phrase LDA模型为概率生成模型,DR-Phrase LDA实现文本生成的过程为:首先文本数据集D中有M篇文本,从超参数为α的狄利克雷分布中取样生成文本d的主题分布θd;从主题的多项式分布θd中取样生成文本d中词语或短语的主题参数z,主题编号记为zmn;
从超参数为β狄利克雷分布中取样生成主题z相应的词语或短语分布 其中,所有文本共享K个主题;从词语的多项式分布 中采样生成词语或短语t。
10.根据权利要求7所述的分析文本数据潜在主题短语的系统,其特征在于,所述结果输出模块,具体训练包括:训练单元,用于对所述DR-Phrase LDA模型训练,具体包括:输入:未搭配成有效短语的词语与短语集的混合表现形式的文本数据集,已训练所得的词向量模型及DR-Phrase LDA模型的狄利克雷分布超参数α,狄利克雷分布超参数β,主题个数K;迭代次数IterNum;短语wp语义相似度最大的前γ个对应的取值;短语wp的长度计数调节参数μ;
训练过程:
遍历文本数据集中每个文本中的词语或有效短语t对应的编号;
若t为有效短语,则增加所述短语wp被抽到主题k后的计数C(wp);同时遍历与wp语义相似度最大的前γ个词集,并相应增加该词集中所有词分配到主题k下的计数C(wi);
否则,若t为实词词语,且存在语义相关短语,则增加词语t在主题k的计数C(w),同时增加该词语作为语义背景的有效短语 在主题k下的计数否则,若t为虚词词语,则对应的计数减1;
迭代上述步骤至设定的次数IterNum;
输出:文本数据集中的所有词语和有效短语的主题编号二维矩阵z;
结果输出单元:用于根据训练结果输出文本数据潜在的主题短语,具体包括:根据某篇文本d中潜在的主题比例θd统计可得每一篇文本的主题比例概率值矩阵θ:θ={θ(m,k),m∈{0,..M-1},k∈{0,..K-1}}其中,M为文本数据集文本总的文本数量;K为主题数。
根据编号为k的主题所包含term概率 值统计可得每个主题与term的概率值矩阵其中,Nt为文本数据集的总term数。