1.一种问答对检索方法,其特征在于,包括:
从问句中提取至少一个关键词,并获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度;
分析所述问句中具有语法关联的每两个词项之间的依存关系;
根据预先为所述依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重;
根据所述距离权重确定所述问句中每两个词项之间的关联度;
根据所述关联度确定所述问句中每个词项的词项权重,并根据所述问句中每个词项的词项权重检索与所述问句相关的问答对;
根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重,并根据所述扩展词的词项权重检索与所述问句相关的问答对;
将检索出的所有问答对按照预设规则进行排序显示。
2.根据权利要求1所述的方法,其特征在于,所述获取每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度,包括:利用知网HowNet分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关键词的初始相似度均为1;
利用同义词词林分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关键词的初始相似度均为1;
利用经训练后的文本深度表示模型word2vec,分别获取每个关键词的至少一个扩展词以及每个扩展词与对应关键词的初始相似度;
合并获取到的相同扩展词,分别计算合并后的每个扩展词与对应关键词的最终相似度SR,其中,SR=Ssum/3,Ssum为所述扩展词对应的所有初始相似度之和。
3.根据权利要求1所述的方法,其特征在于,所述根据预先为所述依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重,包括:分别计算第一词项与每个第二词项之间的距离权重D,所述第一词项为所述问句中的任意一个词项,所述第二词项为与所述第一词项存在所述依存关系的词项;
其中, y为预先为所述第一词项与所述第二词项之间的依存关系设置的重要度权重,α为基准值;
分别计算所述第一词项与每个第三词项之间的距离权重Dis,所述第三词项为所述问句中除所述第一词语外的任意一个词项,Dis为所述第一词项与所述第三词项之间存在的至少一种依存关系对应的至少一种距离权重D之和。
4.根据权利要求3所述的方法,其特征在于,所述根据所述距离权重确定所述问句中每两个词项之间的关联度,包括:按照下述公式计算所述问句中词项ti和词项tj之间的关联度wrel(i,j):wrel(i,j)=λDep(ti,tj)+(1-λ)Closepmi(ti,tj);
其中,
ti表示所述问句中的第i个词项,tj表示所述问句中的第j个词项,i=1,2……n,j=1,2……n,n为所述问句中的词项总数;
λ为调节因子;
b为一个大于1的常数;
Dis(ti,tj)为词项ti和词项tj之间的距离权重;
为问句集中词项ti和词项tj共同出现的概率,Nd(ti,tj)为问句集中词项ti和词项tj同时出现的问句的个数,ND为问句集中的问句总数;
和 分别表示词项ti和词项tj各自在问句集中出现的概率,Nd(ti)为问句集中包含词项ti的问句的总数,Nd(tj)为问句集中包含词项tj的问句总数,ND为问句集中的问句总数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述关联度确定所述问句中每个词项的词项权重,包括:按照下述公式计算所述问句中各词项最终权重组成的权重矩阵其中,α为给定常数;
E为将关联矩阵M进行正交变换后的随机矩阵,所述关联矩阵M为所述问句中每两个词项之间的关联度形成的对称矩阵;
为所述问句中各词项原始权重组成的权重矩阵。
6.根据权利要求1所述的方法,其特征在于,所述根据所述扩展词与对应关键词的最终相似度计算所述扩展词的词项权重,包括:获取所述扩展词对应的关键词的原始权重;
将所述原始权重和所述扩展词与对应关键词的最终相似度的乘积,作为所述扩展词的词项权重。
7.一种社区问答检索系统,其特征在于,包括:关键词提取单元,用于从问句中提取至少一个关键词;
关键词扩展单元,用于获取所述关键词提取单元获取的每个关键词的扩展词以及每个扩展词与对应关键词的最终相似度;
关系分析单元,用于分析所述问句中具有语法关联的每两个词项之间的依存关系;
权值确定单元,用于根据预先为所述关系分析单元分析得到的依存关系设定的重要度权重,确定反映所述问句中每两个词项之间紧密程度的距离权重;
关联度确定单元,用于根据所述权值确定单元确定的距离权重确定所述问句中每两个词项之间的关联度;
第一权重确定单元,用于根据所述关联度确定单元确定的关联度确定所述问句中每个词项的词项权重;
第一检索单元,用于根据所述第一权重确定单元确定的问句中每个词项的词项权重检索与所述问句相关的问答对;
第二权重确定单元,用于根据所述关键词扩展单元扩展得到的扩展词与对应关键词的最终相似度计算所述扩展词的词项权重;
第二检索单元,用于根据所述第二权重确定单元确定的扩展词的词项权重检索与所述问句相关的问答对;
检索结果显示单元,用于将所述第一检索单元和所述第二检索单元检索出的所有问答对按照预设规则进行排序显示。
8.根据权利要求7所述的系统,其特征在于,所述关键词扩展单元,包括:知网扩展模块,用于利用知网HowNet分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关键词的初始相似度均为1;
词林扩展模块,用于利用同义词词林分别获取每个关键词的至少一个扩展词,并定义每个扩展词与对应关键词的初始相似度均为1;
模型扩展模块,用于利用经训练后的文本深度表示模型word2vec,分别获取每个关键词的至少一个扩展词以及每个扩展词与对应关键词的初始相似度;
相似度计算模块,用于合并所述知网扩展模块、所述词林扩展模块和所述模型扩展模块获取到的相同扩展词,分别计算合并后的每个扩展词与对应关键词的最终相似度SR,其中,SR=Ssum/3,Ssum为所述扩展词对应的所有初始相似度之和。
9.根据权利要求7所述的系统,其特征在于,所述权值确定单元,包括:第一权重计算模块,用于分别计算第一词项与每个第二词项之间的距离权重D,所述第一词项为所述问句中的任意一个词项,所述第二词项为与所述第一词项存在所述依存关系的词项;
其中, y为预先为所述第一词项与所述第二词项之间的依存关系设置的重要度权重,α为基准值;
第二权重计算模块,用于分别计算所述第一词项与每个第三词项之间的距离权重Dis,所述第三词项为所述问句中除所述第一词语外的任意一个词项,Dis为所述第一词项与所述第三词项之间存在的至少一种依存关系对应的至少一种所述第一权重计算模块计算得到的距离权重D之和。
10.根据权利要求9所述的系统,其特征在于,所述关联度确定单元,具体用于按照下述公式计算所述问句中词项ti和词项tj之间的关联度wrel(i,j):wrel(i,j)=λDep(ti,tj)+(1-λ)Closepmi(ti,tj);
其中,
ti表示所述问句中的第i个词项,tj表示所述问句中的第j个词项,i=1,2……n,j=1,2……n,n为所述问句中的词项总数;
λ为调节因子;
b为一个大于1的常数;
Dis(ti,tj)为词项ti和词项tj之间的距离权重;
为问句集中词项ti和词项tj共同出现的概率,Nd(ti,tj)为问句集中词项ti和词项tj同时出现的问句的个数,ND为问句集中的问句总数;
和 分别表示词项ti和词项tj各自在问句集中出现的概率,Nd(ti)为问句集中包含词项ti的问句的总数,Nd(tj)为问句集中包含词项tj的问句总数,ND为问句集中的问句总数。
11.根据权利要求7至10任一项所述的系统,其特征在于,所述第一权重确定单元,具体用于按照下述公式计算所述问句中各词项最终权重组成的权重矩阵其中,α为给定常数;
E为将关联矩阵M进行正交变换后的随机矩阵,所述关联矩阵M为所述问句中每两个词项之间的关联度形成的对称矩阵;
为所述问句中各词项原始权重组成的权重矩阵。
12.根据权利要求7所述的方法,其特征在于,所述第二权重确定单元,包括:原始权重获取模块,用于获取所述扩展词对应的关键词的原始权重;
第二权重确定模块,用于将所述原始权重获取模块获取的原始权重和所述扩展词与对应关键词的最终相似度的乘积,作为所述扩展词的词项权重。