1.一种语义词典构建方法,其特征在于,包括:
从用户的网络日志中提取具有相同或者相近语义的句子;
根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
2.根据权利要求1所述的方法,其特征在于,从用户的网络日志中提取具有相同或者相近语义的句子包括:根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
3.根据权利要求2所述的方法,其特征在于,根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子包括:根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数;
若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
4.根据权利要求2所述的方法,其特征在于,根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子包括:根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数;
若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
5.根据权利要求1所述的方法,其特征在于,根据所述具有相同或者相近语义的句子中的词的语义对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词包括:对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐;
根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和/或根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
6.根据权利要求1所述的方法,其特征在于,根据所述备选词在所述具有相同或者相近语义的句子中的语境信息对所述备选词进行聚类,以获取具有相同语义的词包括:根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。
7.一种语义词典构建装置,其特征在于,包括:
语句筛选模块,用于从用户的网络日志中提取具有相同或者相近语义的句子;
词语筛选模块,用于根据所述具有相同或者相近语义的句子中的词的语义,对所述具有相同或者相近语义的句子中的词进行对齐,从而获取具有相同或者相近语义的备选词;
词语聚类模块,用于根据所述备选词在所述具有相同或者相近语义的句子中的语境信息,对所述备选词进行聚类,以获取具有相同语义的词,并将具有相同语义的词添加到语义词典中。
8.根据权利要求7所述的装置,其特征在于,所述语句筛选模块包括:第一语句筛选单元,用于根据用户点击日志获取用户查询过程中所使用的检索句以及所点击的网页的标题,并将所述检索句及所述网页的标题作为具有相同或者相近语义的句子;或者第二语句筛选单元,用于根据用户会话日志获取用户一次查询会话中所使用的至少两个检索句,将所述至少两个检索句作为具有相同或者相近语义的句子。
9.根据权利要求8所述的装置,其特征在于,所述第一语句筛选单元具体用于:根据用户点击日志计算用户使用相同检索句检索后,点击相同网页链接的次数;
若所述次数超过次数阈值,则将所述检索句及所述网页链接的网页标题作为具有相同或者相近语义的句子。
10.根据权利要求8所述的装置,其特征在于,所述第二语句筛选单元具体用于:根据用户会话日志获取用户一次查询会话中至少两个检索句依次出现的次数;
若所述至少两个检索句依次出现的次数大于次数阈值,则将所述至少两个检索句作为具有相同或者相近语义的句子。
11.根据权利要求7所述的装置,其特征在于,所述词语筛选模块包括:匹配对齐单元,用于对所述具有相同或者相近语义的句子中的词进行文本匹配,将完全匹配的词进行文本对齐;
模板对齐单元,用于根据预置的词匹配模板对所述具有相同或者相近语义的句子中的词进行文本对齐;和/或统计对齐单元,用于根据对其他具有相同或者相近语义的句子的对齐结果的统计,将已有的对齐结果中对齐概率较高的词进行文本对齐。
12.根据权利要求7所述的装置,其特征在于,所述词语聚类模块包括:上下文聚类单元,用于根据所述备选词在所述具有相同或者相近语义的句子中的上下文对所述备选词进行聚类,将聚类后同类的备选词作为具有相同语义的词。