1.一种基于Wikipedia概念向量的中文词语相关度计算方法,在特征在于,该方法包括以下步骤:
步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;具体为:步骤1‑1)访问Wikipedia Dump服务站点,下载最新的zhwiki数据库;
步骤1‑2)根据zhwiki数据库依次处理
3...n},代表文档标题的层级,从1到n表示由高到低;
步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;具体为:
步骤2‑1)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充,具体为:
将基础语料库中的某一篇文档记作docl,其标题记作titlel,标识记作idl;该篇文档中的某一概念标记的热点文本记作linkl,k,目标概念记作targetl,k;docl中未加概念标记的词语记作wl,i;
步骤2‑1‑1)在docl中,收集
步骤2‑1‑2)在docl中,收集所有概念标记信息,构建概念标记集合,记作按照每个元素中link
所包含的词语数量降序排列;
步骤2‑1‑3)遍历 若在docl中存在wl,j=linkl,i,则将wl,j左右添加三个中括号的概念标记,变为:[[[wl,j]]];
步骤2‑2)根据最大频率词义算法,对步骤2‑1)处理过的基础语料库做进一步的概念标记扩充,具体为:
收集经过步骤2‑1)扩充概念的基础语料库中的概念标记信息元组,构建概念标记集合,记作:
;
概念标记信息元组包含热点文本(linki)、目标概念集合(Ti)、热点文本的数量与热点文本一致但未加概念标记的词语的数量 统计每个概念标记的目标概念和及其数量得到目标概念元组集合,记作:Ti={(targeti,1,numi,1),(targeti,2,numi,2),...,(targeti,n,numi,n)};语料库中未加概念标记的词语记作wk;
步骤2‑2‑1)遍历LS,按照公式(1)计算词语的概念标注概率Pl(linki);保留结果大于
50%的linki生成高频概念标注集合,记为LSH;
步骤2‑2‑2)遍历LSH,依次对linki中Ti的每个元素按照公式(2)计算目标概念的标注概率Pt(targeti,j);保留标注概率大于90%的目标概念(target),生成高频目标概念集合,记为LSHC={(linki,targeti,j),...},将集合的各个元素按照linki中含有的词语数降序排列;
步骤2‑2‑3)遍历LSHC,若存在wk=linki,则将wk左右添加五个中括号的概念标记,变为:[[[[[wk]]]]];
步骤三、根据Wikipedia概念语料库,训练概念向量;
步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;
步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。
2.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤三中,训练概念向量时,具体为:步骤3‑1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;
步骤3‑2)使用概念语料库训练概念向量。
3.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤四中,获取待比较词语对的概念集合时,具体为:步骤4‑1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;
步骤4‑2)由用户指定概念获取层次,构建概念集合;
需要说明的是,用户可指定的层次如下所示:a)Normal:只查找正常页面的Title;否则,返回None;
b)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;
c)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;
d)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
e)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;
f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;
其中的符号释义说明如下:
Title:当wi所对应的Wikipedia页是一个正常页面且非消歧页非重定向页时,其对应概念就是Title;
RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;
DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念,且不计与Title重复的;
HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的
HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的
HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念,且不计与Title重复的。
4.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤五中,计算各个概念对的概念向量相似度并选取最大值作为词语相关度时,具体为:
步骤5‑1)待比较词语对为(w1,w2),w1的概念集合 和w2的概念集合 根据步骤三得到的概念向量文件,查询 和 中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;
步骤5‑2)根据步骤5‑1)处理过的 和 计算它们的笛卡尔积得待计算概念集合,记作
步骤5‑3)由步骤5‑1)和步骤5‑2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;
其中 和 表示概念ci和cj的概念向量, 和 表示向量 和 的模;
步骤5‑4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。
5.一种基于Wikipedia概念向量的中文词语相关度计算装置,其特征在于,该装置包括Wikipedia基础语料库构建单元、Wikipedia概念语料库构建单元、概念向量训练单元、概念集合提取单元、词语相关度计算单元,分别实现权利要求1‑4任意一项所述的一种基于Wikipedia概念向量的中文词语相关度计算方法的步骤一、步骤二、步骤三、步骤四和步骤五。