1.查询词扩展方法,其特征在于,包括以下步骤:
1)选出查询约束词;
将查询语句去停用词并分词,将分出的每一个词先进行一次单独查询,记分好的词分别为n1,n2,n3,…,记录每个词的反馈文档数量,分别为Nn1,Nn-2,Nn3,…,将所有查询词进行一次AND查询,记录下反馈文档的总数FA,再将所有查询进行一次OR查询,记录下反馈文档的总数FO,为了找到查询语句的查询约束词,首先,以查询语句中的第一个词n1为例,要为n1进行一次查询,该查询的操作是剔除n1后,将剩余的所有查询词进行一次AND查询,此次查询的反馈文档的总数记为Fn1,然后计算FA占Fn1的比重,用D1来记录结果,D1的计算公式为:之后,要计算包含词n1的文档数占OR查询的结果文档数的比重,以此来表示n1的自由度,用V1表示,V1的计算公式为:若有V1大于D1则将词n1定义为查询约束词,之后的其它词n2,n3…,也重复上述操作,直到所有的词都进行过判断,之所以要把V1大于D1的定义为查询约束词,是因为V1表示n1在OR查询结果中的自由度,若n1的存在对该查询没有约束作用,那么包含n1的AND查询占不包含n1的AND查询的比重D1,应该大于或等于它的自由度V1,若V1大于D1,则说明它的存在让AND查询的反馈文档数量减少的量高于阈值,也就是其对该查询语句的约束作用比阈值大;若V1等于D1,则AND查询的反馈文档数量减少的正好,它对查询语句的约束作用正好,此时为阈值;若V1小于D1,则说明V1对应的词n1的存在,对该查询语句的约束作用比阈值还要小,换句话说,n1的自由度能够看成它能为该查询语句起到的约束作用的大小,若它的存在没有起到它最小该有的作用,则认为它是对该查询语句没有约束作用的,故不将其定义为查询约束词;另外,要将查询约束词进行查询词扩展,若只有一个词,则直接将该词定为查询约束词;
2)选出初始扩展候选词;
要将每一个查询约束词进行单独查询得到它的反馈文档,将其反馈文档的内容进行去停用词以及分词,然后根据各个词的TFnew*IDF,计算得分,将排名前50的词记为该词的初始候选扩展词,定义候选词wi在约束词的反馈文档dj中出现的词频为widj,记约束词的反馈文档数为k,TFnew的计算公式为:其中,max()函数为取括号中所有参数的最大值,min()函数为取括号中所有参数的最小值;
定义语料库中所有的文档数为N,含有wi的文档数为wiN,wi的IDF的计算公式为:
3)筛选得到二级扩展候选词;
要比较各个初始候选词在其对应的查询约束词的反馈文档中的平均词频与该初始候选词在自己的反馈文档中的平均词频,若后者更大,则将该词从初始候选词集合中剔除,得到二级候选词集合,保证将一些虽与约束词有关联,但并不只与约束词有关联的词剔除,记某词在n个文档中的第i个文档中出现的次数为Xi,平均词频TFavg的计算公式为:
4)通过计算得分得到最终扩展词;
利用候选词权重计算公式:
-1
S(w,q)=(dis+1)
式中,w表示候选词,q表示约束词,dis为两个词的词向量的距离的绝对值,表示候选词与约束词的距离,之所以采用(dis+1)-1计算各个候选词的得分,因为第一能够保证随着距离的增大,得分S是会逐渐变小的,第二能够让距离接近到预设范围时,得分增加在预设范围内,距离远时得分减少在预设范围内,更符合实际,也更易拉开差距,将结果排序,将排名前三的词作为该约束词的扩展词,重复上述操作,直到为每一个查询约束词选出自己的扩展词;
5)根据步骤4)得出的扩展词新建查询;
6)根据文档权重排序;
引入原有的BM25打分公式:
式中,Wi为其对应词的权重,R(qi,d)是当前对应词和文档的相关度,在原有的BM25打分公式中,将步骤4)中的得分公式S(w,q)加入,并排序,将所要打分的文档记为d,以某一个查询约束词为例,将查询约束词的扩展词分别记为q1,q2,q3,查询约束词记为q4,则S(qi,q4)表示查询约束词q4的扩展词qi利用步骤4)中的打分公式计算出的它们的距离,它们在BM25中的权重分别为W1,W2,W3,W4,将它们记为一个查询集合QA,它们在BM25中与每个文档的相关度记为R(qi,d),先计算每个约束词以及其扩展词部分的得分SA,再把所有查询约束词及其扩展词算出的SA全部相加,最后再加上其它查询语句通过原有BM25打分公式的得分SB,即用没有加入步骤4)中的得分公式S(w,q)的BM25公式为它们计算的得分SB;
SA的计算公式为:
将全部SA之和加上SB之后的得分便是每篇文档的最终得分,之后将结果按从大到小返回即可。
2.根据权利要求1所述的查询词扩展方法,其特征在于:在步骤5)中,用每个约束词以及它的3个扩展词,用逻辑关系OR连接,构成它们的集合,然后将所有约束词以及它们的3个扩展词构成的集合,用逻辑关系AND连接,最后再把它们与其它的查询语句用逻辑关系AND连接,用这种关系进行查询,得到反馈文档。