1.一种确定用户查询语句句法结构的方法,其特征在于,包括:识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;
根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。
2.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,根据所述对齐关系和所述网页主题句的句法结构,确定所述用户查询语句的句法结构,包括:如果所述网页主题句中的两个分词之间具备句法结构关系,且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系,则在所述用户查询语句中的两个分词之间,建立所述网页主题句中的两个分词之间所具备的句法结构关系,以构成所述用户查询语句的句法结构。
3.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系之前,还包括:获取样本集,其中所述样本集包括:由多个查询语句样本组成的源语言样本子集,以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集;
基于词对齐算法,对所述样本集进行训练,以学习得到词对齐列表,其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系;
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括:根据所述词对齐列表,识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。
4.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,所述源语言样本子集包括:查询日志中所包含的用户输入的历史查询语句;
所述翻译语言样本子集包括:与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。
5.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前,还包括:识别所述用户查询语句中的各分词的词性,以得到词性标注结果;获取所述网页主题句的词性标注结果;
识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括:根据所述词对齐列表、所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果,确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。
6.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述网页主题句为与所述用户查询语句待匹配的网页主题句;
在构建所述用户查询语句的句法结构之后,还包括:
计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。
7.根据权利要求6所述的确定用户查询语句句法结构的方法,其特征在于,计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,包括:按照如下公式,计算所述相似度:
L=S/[{S1+S2}/2]
其中,L为所述相似度;S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量;S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量;S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。
8.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述句法结构为语法依存树,句法结构关系为依存关系;或者所述句法结构为语义角色标注树,句法结构关系为语义关系。
9.一种确定用户查询语句句法结构的装置,其特征在于,包括:对齐关系识别单元,用于识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;
句法结构构建单元,用于根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。
10.根据权利要求9所述的确定用户查询语句句法结构的装置,其特征在于,所述句法结构构建单元,具体用于:如果所述网页主题句中的两个分词之间具备句法结构关系,且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系,则在所述用户查询语句中的两个分词之间,建立所述网页主题句中的两个分词之间所具备的句法结构关系,以构成所述用户查询语句的句法结构。
11.根据权利要求9所述的确定用户查询语句句法结构的装置,其特征在于,还包括词对齐列表生成单元,用于:获取样本集,其中所述样本集包括:由多个查询语句样本组成的源语言样本子集,以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集;
基于词对齐算法,对所述样本集进行训练,以学习得到词对齐列表,其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系;
所述对齐关系识别单元,具体用于:
根据所述词对齐列表生成单元得到的词对齐列表,识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。
12.根据权利要求11所述的确定用户查询语句句法结构的装置,其特征在于,所述源语言样本子集包括:查询日志中所包含的用户输入的历史查询语句;
所述翻译语言样本子集包括:与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。
13.根据权利要求11所述的确定用户查询语句句法结构的装置,其特征在于,还包括词性标注单元,用于:识别所述用户查询语句中的各分词的词性,以得到词性标注结果;获取所述网页主题句的词性标注结果;
所述对齐关系识别单元,具体用于:
根据所述词对齐列表生成单元得到的词对齐列表,以及所述词性标注单元得到的所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果,确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。
14.根据权利要求9-13中任一项所述的确定用户查询语句句法结构的装置,其特征在于,所述网页主题句为与所述用户查询语句待匹配的网页主题句;
所述装置还包括:
相似度计算单元,用于在所述句法结构构建单元构建所述用户查询语句的句法结构之后,计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。
15.根据权利要求14所述的确定用户查询语句句法结构的装置,其特征在于,所述相似度计算单元,具体用于:按照如下公式,计算所述相似度:
L=S/[{S1+S2}/2]
其中,L为所述相似度;S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量;S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量;S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。
16.根据权利要求9-13中任一项所述的确定用户查询语句句法结构的装置,其特征在于,所述句法结构为语法依存树,句法结构关系为依存关系;或者所述句法结构为语义角色标注树,句法结构关系为语义关系。