1.基于词性对齐的文本相似度计算方法,其特征在于:包括以下步骤:S100:对待计算的第一语句和第二语句进行分词;
S200:对第一语句和第二语句的分词进行词性标注;
S300:计算第一语句的分词和第二语句的分词之间的同义词关系,得到同义词矩阵;
S400:依次以第一语句和第二语句中出现的每一种词性为当前词性并执行步骤S401至步骤S404:S401:从第一语句中提取当前词性对应的分词,得到第一分词序列;
S402:从第二语句中提取当前词性对应的分词,得到第二分词序列;
S403:根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系,根据对应关系得到当前词性下第一语句和第二语句的对齐结果;
S404:根据对齐结果统计当前词性的对齐特征;
S500:根据统计的对齐特征,按照预设公式计算文本相似度;
所述对齐特征包括:词性为空、对齐总数、对齐程度以及词性权重。
2.根据权利要求1所述的基于词性对齐的文本相似度计算方法,其特征在于:所述预设公式为:k=1,(pi[in]≥0)
k=pi[in],(pi[in]<0)
其中,s代表相似度,n为不为空的词性个数,pi[t]表示第i个词性的对齐总数,pi[r]表示第i个词性的词性权重,pi[in]表示第i个词性的对齐程度。
3.根据权利要求2所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S300中,仅对同词性的分词进行同义词的计算。
4.根据权利要求3所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S403具体包括:S4031:依次判断第一分词序列的每个分词是否在第二分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐;
S4032:依次判断第二分词序列的每个分词是否在第一分词序列中有对应的同义词,若是,则判定相应的分词已对齐,若否,则判定相应的分词未对齐。
5.根据权利要求4所述的基于词性对齐的文本相似度计算方法,其特征在于:S404具体包括:S4041:统计第一分词序列和第二分词序列中已对齐的分词个数以及未对齐的分词的个数;
S4042:计算已对齐的分词个数占总分词个数的比例作为对齐总数。
6.根据权利要求5所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S404还包括:S4043:判断是否存在未对齐分词,若是,则执行S4044,若否,则令对齐程度为1;
S4044:判断是否第一分词序列和第二分词序列中均存在未对齐分词,若是,则执行S4045;若否,则令对齐程度为0;
S4045:计算第一分词序列中已对齐分词个数所占比例与第二分词序列中已对齐分词个数所占比例的乘积,以乘积乘以‑1的结果作为对齐程度。
7.根据权利要求6所述的基于词性对齐的文本相似度计算方法,其特征在于:所述S404还包括:S4046:将当前词性下第一分词序列和第二分词序列中分词的数量占第一语句和第二语句总的分词数量的比例作为当前词性权重。
8.根据权利要求7所述的基于词性对齐的文本相似度计算方法,其特征在于:还包括:S600:根据文本相似度判断第一语句和第二语句是否相似。