欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2013106911899
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-03-07
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于混合主题的文本标注方法,包括:

步骤一:采用LDA算法对获取的概念文本进行学习;

其中,在采用LDA算法对获取的概念文本进行学习的过程中,针对所述概念文本,设定第一目标显式主题,对设定的所述第一目标显式主题进行学习,获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,设定的所述第一目标显式主题的数量与所述概念文本的数量相同;

步骤二:采用LDA算法对获取的资源文本进行学习;其中,根据企业信息资产获取所述资源文本;

其中,在采用LDA算法对获取的资源文本进行学习的过程中,针对所述资源文本,设定目标主题;其中,所述目标主题包括第二目标显式主题和目标隐含主题,并且,设定的所述目标隐含主题的数量小于所述资源文本的数量;以及,根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化;

对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;

步骤三:根据在对所述资源文本进行学习的过程中获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布,对待标注文本进行语义标注。

2.如权利要求1所述的基于混合主题的文本标注方法,其中,在对设定所述第一目标显式主题进行学习的过程中,采用如下的公式获得所述第一目标显式主题-单词的概率分布:其中,Doc(k)表示主题k的概念文本;

Topic表示主题;V表示单词表;

d为所述概念文本;wi为所述概念文本中的当前单词;

zi为当前单词wi的主题分配;

z-i为所述概念文本中除去wi之后其他所有单词的主题分配;

k是Topic的游标;t是单词的游标;

表示除掉单词wi后文本m下出现主题k的数量;

表示除掉单词wi后主题k下出现单词t的数量;

αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。

3.如权利要求1所述的基于混合主题的文本标注方法,其中,在对所述待标注文本进行语义标注的过程中,对所述待标注文本分别进行显式主题和隐含主题标注;其中,在对所述待标注文本进行显式主题标注时,根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用所述第二目标显式主题的名称对所述待标注文本进行有名称的语义标注;

在对所述待标注文本进行隐含主题标注时,根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布,用所述目标隐含主题的ID对所述待标注文本进行无名称的语义标注。

4.一种基于混合主题的文本标注系统,包括:

概念文本学习单元,用于采用LDA算法对获取的概念文本进行学习,包括第一目标显式主题设定单元和第一目标显式主题学习单元;其中,所述第一目标显式主题设定单元用于针对所述概念文本,设定第一目标显式主题,所述第一目标显式主题学习单元用于对设定的所述第一目标显式主题进行学习,获得所述概念文本中的单词在所述第一目标显式主题上的第一目标显式主题-单词的概率分布;并且,所述第一目标显式主题设定单元设定的所述第一目标显式主题的数量与所述概念文本的数量相同;

资源文本学习单元,用于采用LDA算法对获取的资源文本进行学习,其中,根据企业信息资产获取所述资源文本;

包括目标主题设定单元、初始化单元和学习单元;其中,所述目标主题设定单元用于针对所述资源文本,设定目标主题,所述目标主题包括第二目标显式主题和目标隐含主题,并且,设定的所述目标隐含主题的数量小于所述资源文本的数量;

所述初始化单元用于根据在所述概念文本学习中获得的所述第一目标显式主题-单词的概率分布对所述第二目标显式主题进行初始化;

所述学习单元用于对所述第二目标显式主题初始化的结果和所述目标隐含主题进行学习,获得第二目标显式主题-单词的概率分布和目标隐含主题-单词的概率分布;

文本标注单元,用于根据所述资源文本学习单元获得的所述第二目标显式主题-单词的概率分布和所述目标隐含主题-单词的概率分布,对待标注文本进行语义标注。

5.如权利要求4所述的基于混合主题的文本标注系统,其中,在所述第一目标显式主题学习单元对设定所述第一目标显式主题进行学习的过程中,采用如下的公式获得所述第一目标显式主题-单词的概率分布:其中,Doc(k)表示主题k的概念文本;

Topic表示主题;V表示单词表;

d为所述概念文本;wi为所述概念文本中的当前单词;

zi为当前单词wi的主题分配;

z-i为所述概念文本中除去wi之后其他所有单词的主题分配;

k是Topic的游标;t是单词的游标;

表示除掉单词Wi后文本m下出现主题k的数量;

表示除掉单词wi后主题k下出现单词t的数量;

αk是主题k的Dirichlet先验参数;βt是单词t的Dirichlet先验参数。

6.如权利要求4所述的基于混合主题的文本标注系统,其中,所述文本标注单元包括对所述待标注文本进行显式主题标注的显式主题标注单元和对所述待标注文本进行隐含主题标注的隐含主题标注单元,其中,所述显式主题标注单元根据在LDA算法学习中获得的所述第二目标显式主题-单词的概率分布,用所述第二目标显式主题的名称对所述待标注文本进行有名称的语义标注;

所述隐含主题标注单元根据在LDA算法学习中获得的所述目标隐含主题-单词的概率分布,用所述目标隐含主题的ID对所述待标注文本进行无名称的语义标注。