1.一种查询语句与网页相似度的确定方法,其特征在于,包括:通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;
根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
2.根据权利要求1所述的查询语句与网页相似度的确定方法,其特征在于,在通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句之前,还包括:确定翻译双语对语料;其中,所述翻译双语对语料中翻译双语对的源语言句子为查询语句,目标语言句子为网页主题句;
对所述翻译双语对语料进行训练,以创建短语翻译模型;所述短语翻译模型的输入为查询语句,输出包括与输入具有相似语义的至少一条候选语句。
3.根据权利要求2所述的查询语句与网页相似度的确定方法,其特征在于,确定翻译双语对语料,包括:基于用户点击数据,确定翻译双语对语料;
其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返回的多个查询结果中所点击的网页链接之间的映射关系;
所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。
4.根据权利要求1-3中任一项所述的查询语句与网页相似度的确定方法,其特征在于,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似度,包括:基于如下公式,确定目标查询语句与网页主题句之间的相似度:
其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度;
N为所述至少一条候选语句的总条数;
score(transi(q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句transi(q)的翻译概率;
BLEU(transi(q),t)为transi(q)与t之间的相似度。
5.根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度之前,还包括:基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。
6.根据权利要求5所述的查询语句与网页相似度的确定方法,其特征在于,基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度,包括:按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:其中,BP(transi(q),t)为transi(q)与t对应的惩罚权重,如果transi(q)的分词个数小于等于t的分词个数,则BP(transi(q),t)的取值为exp(1-x/y),x为t的分词个数,y为transi(q)的分词个数,如果transi(q)的分词个数大于t的分词个数,则BP(transi(q),t)的取值为1;
Pn为采用n元语言模型所计算的transi(q)和t中匹配成功的次数。
7.根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句,包括:对目标查询语句进行短语的划分,得到至少一个查询短语;
遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语;
将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句;
在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,还包括:按照如下公式,计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句transi(q)的翻译概率:其中,K为目标查询语句所包含的查询短语的个数;
Pr(ek|fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,fk为目标查询语句f的第k个查询短语,ek为候选语句e中的第k个候选短语。
8.根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,还包括:按照如下公式,计算Pr(ek|fk):
其中,M为加在ek和fk上的所有特征函数的总个数;
hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数;
hm(e′k,fk)为用于表征将fk翻译为e'k的翻译概率的第m个特征函数,e'k为根据所述短语翻译模型对fk进行翻译得到的各个候选短语;
λm为第m个特征函数的权重。
9.根据权利要求8所述的查询语句与网页相似度的确定方法,其特征在于,第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。
10.根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句,包括:按照如下数据结构方式,存储各个查询短语对应的至少一个候选短语:分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置;
根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句。
11.根据权利要求10所述的查询语句与网页相似度的确定方法,其特征在于,节点还包括将查询短语翻译为候选短语的翻译概率;
根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句,包括:根据记录的内容,读取存储的各个节点所包括的候选短语;
根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候选语句,及各条候选语句的翻译概率;
从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。
12.一种查询语句与网页相似度的确定方法,其特征在于,包括:云端服务器获取终端发送的目标查询语句;
所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
13.一种查询语句与网页相似度的确定方法,其特征在于,包括:终端向云端服务器发送目标查询语句,以指示所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句;
所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
14.一种查询语句与网页相似度的确定装置,其特征在于,包括:候选翻译模块,用于通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;
相似度确定模块,用于根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
15.根据权利要求14所述的查询语句与网页相似度的确定装置,其特征在于,还包括:翻译语料确定模块,用于在所述候选翻译模块根据预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句之前,确定翻译双语对语料;其中,所述翻译双语对语料中翻译双语对的源语言句子为查询语句,目标语言句子为网页主题句;
翻译模型创建模块,用于对所述翻译双语对语料进行训练,以创建短语翻译模型;所述短语翻译模型的输入为查询语句,输出包括与输入具有相似语义的至少一条候选语句。
16.根据权利要求15所述的查询语句与网页相似度的确定装置,其特征在于,所述翻译语料确定模块,具体用于:基于用户点击数据,确定翻译双语对语料;
其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返回的多个查询结果中所点击的网页链接之间的映射关系;
所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。
17.根据权利要求14-16中任一项所述的查询语句与网页相似度的确定装置,其特征在于,所述相似度确定模块,具体用于:基于如下公式,确定目标查询语句与网页主题句之间的相似度:
其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度;
N为所述至少一条候选语句的总条数;
score(transi(q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句transi(q)的翻译概率;
BLEU(transi(q),t)为transi(q)与t之间的相似度。
18.根据权利要求17所述的查询语句与网页相似度的确定装置,其特征在于,还包括:候选相似度计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度之前,基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。
19.根据权利要求18所述的查询语句与网页相似度的确定装置,其特征在于,所述候选相似度计算模块,具体用于:按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:其中,BP(transi(q),t)为transi(q)与t对应的惩罚权重,如果transi(q)的分词个数小于等于t的分词个数,则BP(transi(q),t)的取值为exp(1-x/y),x为t的分词个数,y为transi(q)的分词个数,如果transi(q)的分词个数大于t的分词个数,则BP(transi(q),t)的取值为1;
Pn为采用n元语言模型所计算的transi(q)和t中匹配成功的次数。
20.根据权利要求17所述的查询语句与网页相似度的确定装置,其特征在于,所述候选翻译模块,包括:短语划分单元,用于对目标查询语句进行短语的划分,得到至少一个查询短语;
短语翻译单元,用于遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短语;
候选语句确定单元,用于将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句;
所述装置还包括:
语句翻译概率计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,按照如下公式,计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选语句中的第i条候选语句transi(q)的翻译概率:其中,K为目标查询语句所包含的查询短语的个数;
Pr(ek|fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,fk为目标查询语句f的第k个查询短语,ek为候选语句e中的第k个候选短语。
21.根据权利要求20所述的查询语句与网页相似度的确定装置,其特征在于,还包括:短语翻译概率计算模块,用于在所述相似度确定模块根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似度之前,按照如下公式,计算Pr(ek|fk):其中,M为加在ek和fk上的所有特征函数的总个数;
hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数;
hm(e'k,fk)为用于表征将fk翻译为e'k的翻译概率的第m个特征函数,e'k为根据所述短语翻译模型对fk进行翻译得到的各个候选短语;
λm为第m个特征函数的权重。
22.根据权利要求21所述的查询语句与网页相似度的确定装置,其特征在于,第m个特征函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到的函数。
23.根据权利要求20所述的查询语句与网页相似度的确定装置,其特征在于,所述候选语句确定单元,包括:短语存储子单元,用于按照如下数据结构方式,存储各个查询短语对应的至少一个候选短语:分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述至少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个候选短语所在节点的存储位置;
短语读取子单元,用于根据所述短语存储子单元记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句。
24.根据权利要求23所述的查询语句与网页相似度的确定装置,其特征在于,节点还包括将查询短语翻译为候选短语的翻译概率;
所述短语读取子单元,具体用于:
根据记录的内容,读取所述短语存储子单元存储的各个节点所包括的候选短语;
根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候选语句,及各条候选语句的翻译概率;
从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。
25.一种云端服务器,其特征在于,包括:
查询语句获取模块,用于获取终端发送的目标查询语句;
查询语句翻译模块,用于通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
26.一种终端,其特征在于,包括:
查询语句发送模块,用于向云端服务器发送目标查询语句,以指示所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句;
相似度确定模块,用于接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;
其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。