知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种分析文本数据潜在主题短语的方法及系统

面议

专利号： 2019103544607

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-03-25

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种分析文本数据潜在主题短语的方法，其特征在于，该方法包括：(1)采集文本数据集，并对所述文本数据集进行分词，得到文本数据集的词语表现形式；

(2)根据文本数据集的词语提取词语搭配后形成的有效短语，得到未搭配成有效短语的词语与短语集的混合表现形式；

(3)对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型；

(4)构建基于词向量的短语主题模型DR‑Phrase LDA并求解各个参数；

所述步骤(4)中，DR‑Phrase LDA模型为概率生成模型，DR‑Phrase LDA实现文本生成的过程为：首先文本数据集D中有M篇文本，从超参数为α的狄利克雷分布中取样生成文本d的主题分布θd；从主题的多项式分布θd中取样生成文本d中词语或短语的主题参数z，主题编号记为zmn；从超参数为β狄利克雷分布中取样生成主题z相应的词语或短语分布其中，所有文本共享K个主题；从词语的多项式分布中采样生成词语或短语t；

所述词语或短语的主题参数z的计算采用吉布斯采样近似求解方法完成，表示为：其中，采样过程中文档d当前位置词语或者有效短语表示为t，记为term，k表示被分配的主题编号，K为预设的主题个数，Nt为文本数据集中的总term数，nk/d表示文档d中主题k的计数，nt/k表示主题k中t的计数，nr表示t的语义相关term的个数，ntr表示t的相关term个数，α和β为Dirichlet超参数，α,β分别为α和β对应的向量；

所述文本数据集中的某篇文本d中潜在的主题比例θd表示为：编号为k的主题所包含term概率值表示为：(5)对所述DR‑Phrase LDA训练，并根据训练结果输出文本数据潜在的主题短语；

步骤(5)中，包括：

(51)对所述DR‑Phrase LDA模型训练，训练步骤包括：输入：未搭配成有效短语的词语与短语集的混合表现形式的文本数据集，已训练所得的词向量模型及DR‑Phrase LDA模型的狄利克雷分布超参数α，狄利克雷分布超参数β，主题p p

个数K；迭代次数IterNum；短语w 语义相似度最大的前γ个对应的取值；短语w的长度计数调节参数μ；

训练过程：

遍历文本数据集中每个文本中的词语或有效短语t对应的编号；

p p p

若t为有效短语，则增加所述短语w 被抽到主题k后的计数C(w)；同时遍历与w 语义相似度最大的前γ个词集，并相应增加该词集中所有词分配到主题k下的计数C(wi)；

否则，若t为实词词语，且存在语义相关短语，则增加词语t在主题k的计数C(w)，同时增加该词语作为语义背景的有效短语在主题k下的计数否则，若t为虚词词语，则对应的计数减1；

迭代上述步骤至设定的次数IterNum；

输出：文本数据集中的所有词语和有效短语的主题编号二维矩阵z；

(52)根据训练结果输出文本数据潜在的主题短语，具体包括：根据某篇文本d中潜在的主题比例θd统计可得每一篇文本的主题比例概率值矩阵θ：θ＝{θ(m,k),m∈{0,..M‑1},k∈{0,..K‑1}}其中，M为文本数据集文本总的文本数量；K为主题数；

根据编号为k的主题所包含term概率值统计可得每个主题与term的概率值矩阵其中，Nt为文本数据集的总term数；

p p

所述有效短语w被抽到主题k的计数C(w)，表示为：p p

C(w)＝μlen(w)

p p

其中，μ为大于等于1的整数，调节参数len(w)为有效短语w的长度；

所述有效短语w对应的短语语义相关词wi分配到主题k下的计数C(wi)，表示为：p p

其中，Int()表示取整数，Sim(wi w)表示在词语wi与有效短语w 通过词向量计算的相似度；

所述词语w在主题k的计数C(w)，表示为：其中，表示在词语w对应的词向量与词语对应的有效短语对应的词向量之间的相似度；

以词w作为语义背景的有效短语在主题k下的计数表示为：

2.根据权利要求1所述的分析文本数据潜在主题短语的方法，其特征在于，所述步骤(2)中，所述有效短语包括n元短语，n元为组成短语的词语个数，所述根据文本数据集的词语提取词语搭配后形成的有效短语，具体包括：(21)统计文本数据集的双词语或短语搭配共现频率，构成二元短语候选集；

(22)计算二元短语候选集score(wi,wj)分值，选取分值高的前m个构成正式的二元短语，并加入到短语集中，同时在步骤(1)所述的文本数据集的词语表现形式中更新相应的词语为所得短语；

(23)迭代步骤(21)(22)计算得到的所述二元短语与其他词语或短语搭配组成的n元短语，依次加入到短语集中。

3.一种根据权利要求1‑2任一项所述的分析文本数据潜在主题短语的方法实现的系统，其特征在于，所述系统包括：预处理模块，用于采集文本数据集，并对所述文本数据集进行分词，得到文本数据集的词语表现形式；

短语提取模块，用于根据文本数据集的词语提取词语搭配后形成的有效短语，得到未搭配成有效短语的词语与短语集的混合表现形式；

词向量构建模块，用于对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型；

模型构建模块，用于构建基于词向量的短语主题模型DR‑Phrase LDA并求解各个参数；

DR‑Phrase LDA模型为概率生成模型，DR‑Phrase LDA实现文本生成的过程为：首先文本数据集D中有M篇文本，从超参数为α的狄利克雷分布中取样生成文本d的主题分布θd；从主题的多项式分布θd中取样生成文本d中词语或短语的主题参数z，主题编号记为zmn；从超参数为β狄利克雷分布中取样生成主题z相应的词语或短语分布其中，所有文本共享K个主题；从词语的多项式分布中采样生成词语或短语t；

所述文本数据集中的某篇文本d中潜在的主题比例θd表示为：所述编号为k的主题所包含term概率值表示为：结果输出模块，用于对所述DR‑Phrase LDA训练，并根据训练结果输出文本数据潜在的主题短语；

所述结果输出模块，具体训练包括：训练单元，用于对所述DR‑Phrase LDA模型训练，具体包括：输入：未搭配成有效短语的词语与短语集的混合表现形式的文本数据集，已训练所得的词向量模型及DR‑Phrase LDA模型的狄利克雷分布超参数α，狄利克雷分布超参数β，主题p p