1.一种基于关键词序列结构的文档相似度度量方法,其特征在于,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置关键词序列,在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
(3)根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
(4)根据所述关键词序列在文档W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
2.根据权利要求1所述的基于关键词序列结构的文档相似度度量方法,其特征在于,所述步骤(3)中,根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。
3.根据权利要求2所述的基于关键词序列结构的文档相似度度量方法,其特征在于,所述步骤(3)中,得到所述关键词序列分别在W1与W2中的结构特征值,表示为:其中, 和 分别为所述文档W1关于关键词
序列S的 特征 集合的 第一项之 和与第 二项之 和 , 和
分别为所述文档W2关于关键词序列S的特征集合的第一项之和
与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
4.根据权利要求3所述的基于关键词序列结构的文档相似度度量方法,其特征在于,所述步骤(4)中,所述文档W1与W2关于所述关键词序列的相似度表示为:SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
5.一种根据权利要求1-4任一项所述的基于关键词序列结构的文档相似度度量方法实现的系统,其特征在于,包括:文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
出现位置统计模块,用于设置关键词序列,并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
结构特征计算模块,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
文档相似度计算模块,用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
6.根据权利要求5所述的基于关键词序列结构的文档相似度度量系统,其特征在于,所述结构特征计算模块包括特征集合表示单元,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中最后一个关键字sm与第一个关键字s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中最后一个关键字sm与第一个关键字s1在W2中出现位置间相隔距离。
7.根据权利要求6所述的基于关键词序列结构的文档相似度度量系统,其特征在于,所述结构特征计算模块还包括特征值计算单元,用于得到所述关键词序列分别在W1与W2中的结构特征值,表示为:其中, 和 分别为所述文档W1关于关键词
序列S的 特征 集合的 第一项 之和与 第二项 之和 , 和
分别为所述文档W2关于关键词序列S的特征集合的第一项之和
与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
8.根据权利要求7所述的基于关键词序列结构的文档相似度度量系统,其特征在于,所述文档相似度计算模块中,所述文档W1与W2关于所述关键词序列的相似度表示为:SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。