欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022100696008
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于文本相似度和关键字的语义推测方法,其特征在于,包括:S1、对数据库中存储的文本进行分词处理,得到若干不可再分词,判断数据库中每个不可再分词的字符数N:

若N≥3,将该不可再分词以键值对形式存储在短语词典中;将短语词典中的不可再分词定义为第一短语;

若N≤2,将该不可再分词以键值对形式存储在词汇词典中;将词汇词典中的不可再分词定义为第一词汇;

S2、对用户的输入文本进行分词处理,得到若干不可再分词,判断输入文本中每个不可再分词的字符数M:

若M≥3,将该不可再分词以键值对形式存储在短语列表中;将短语列表中不可再分词定义为第二短语;

若M≤2,将该不可再分词以键值对形式存储在词汇列表中;将词汇列表中的不可再分词定义为第二词汇;

S3、将第二短语在所述短语词典中进行匹配,计算第一匹配度:若第一匹配度为1,输出匹配文本作为最终推测结果;

若第一匹配度小于1,输出第一匹配度最高的一个或多个文本作为推测结果。

2.根据权利要求1所述的基于文本相似度和关键字的语义推测方法,其特征在于,步骤S1中,还包括对第一短语进行如下键值处理:定义前半部分字符、后半部分字符:若N为单数,则以中心字符为分界,将不可再分词分为包括中心字符的前半部分字符、包括中心字符的后半部分字符;

若N为双数,则将不可再分词等分为前、后两部分,分别为前半部分字符、后半部分字符;

分别以前半部分字符、后半部分字符为键,以不可再分词在短语词典中对应键的值作为值,以键值对形式存储至所述词汇词典中。

3.根据权利要求1所述的基于文本相似度和关键字的语义推测方法,其特征在于,步骤S3中,计算第一匹配度的方法包括:S301、将各第二短语按文本顺序进行排序,依次设定各第二短语的权重为A1,A2,…Ai,使A1最大;其中,i为第二短语编号;且当i≥3时,Ai≤A(i‑1);

S302、逐个提取第二短语,与短语词典进行匹配,得到各第二短语匹配度n1,n2,…ni;

S303、计算第一匹配度:n=A1×n1+A2×n2+…+Ai×ni。

4.根据权利要求3所述的基于文本相似度和关键字的语义推测方法,其特征在于,步骤S302中:

若第二短语在短语词典中具有直接匹配项,则其对应的第二短语匹配度为1;

若第二短语在短语词典中不具有直接匹配项,则采用字符相似度计算来确定其对应的第二短语匹配度。

5.根据权利要求4所述的基于文本相似度和关键字的语义推测方法,其特征在于,所述字符相似度计算包括如下方法:S3021、将不具有直接匹配项的第二短语拆分为单个字符,将每个字符逐一与各第一短语中的单个字符进行匹配;其中,若某个字符在某个第一短语内匹配成功,则结束对该第一短语的匹配,进入与下一个第一短语的匹配;

S3022、以单个字符匹配成功的个数,除以匹配成功的第二短语中字符总数,得到该第二短语相较于对应第一短语的相似度,提取其中最大值作为最高相似度;

S3023、将该第二短语的权重更新为(Ai×最高相似度);其中Ai为该第二短语对应的原权重。

6.根据权利要求5所述的基于文本相似度和关键字的语义推测方法,其特征在于,所述计算第一匹配度还包括:

S3024、若所有第二短语在短语词典中均不具有直接匹配项,则直接输出所有第二短语更新后的权重,计算第一匹配度;

S3025、若至少一个第二短语在短语词典中具有直接匹配项,则将所有不具有直接匹配项的第二短语所降低的权重差值,增加至第一个具有直接匹配项的第二短语上,再输出所有第二短语更新后的权重,计算第一匹配度。

7.根据权利要求2所述的基于文本相似度和关键字的语义推测方法,其特征在于,当第一匹配度最高的文本为多个时,还包括:S4、将第二词汇在所述词汇词典中进行匹配,得到第二匹配度;

S5、计算最终匹配度=(第一匹配度×第一匹配度的权重)+(第二匹配度×第二匹配度的权重);

S6、以最终匹配度为推测值,输出推测值最高的一个或多个文本作为推测结果。

8.根据权利要求7所述的基于文本相似度和关键字的语义推测方法,其特征在于,当短语列表为空集时,所述第一匹配度的权重为0,所述第二匹配度的权重为1;

当短语列表不为空集、且词汇列表为空集时,所诉第一匹配度的权重为1,所述第二匹配度的权重为0;

当短语列表不为空集、且词汇列表也不为空集时,所述第一匹配度的权重为0.6,所述第二匹配度的权重为0.4。

9.根据权利要求8所述的基于文本相似度和关键字的语义推测方法,其特征在于,当词汇列表中有至少两个第二词汇时,通过如下方法计算所述第二匹配度:若某第二词汇在词汇词典中具有直接匹配项,则该第二词汇的匹配度为1;

若某第二词汇在词汇词典中不具有直接匹配项,则采用字符相似度计算来确定该第二词汇的匹配度;

其中,k为词汇列表中第二词汇的编号,Bk为第k个第二词汇的匹配度,mk为第k个第二词汇的权重。

10.根据权利要求9所述的基于文本相似度和关键字的语义推测方法,其特征在于,通过字符相似度计算确定第二词汇的匹配度的方法包括:将不具有直接匹配项的第二词汇拆分为单个字符,将每个字符逐一与各第一词汇中的单个字符进行匹配;其中,若某个字符在某个第一词汇内匹配成功,则结束对该第一词汇的匹配,进入与下一个第一词汇的匹配;

以单个字符匹配成功的个数,除以匹配成功的第二词汇中字符总数,得到该第二词汇相较于对应第一词汇的相似度;

提取最高相似度,将该第二词汇的权重更新为(mk×最高相似度);其中mk为该第二词汇对应的原权重;

若所有第二词汇在词汇词典中均不具有直接匹配项,则直接输出所有第二词汇更新后的权重,计算最终匹配度;

若至少一个第二词汇在词汇词典中具有直接匹配项,则将所有不具有直接匹配项的第二词汇所降低的权重差值,增加至第一个具有直接匹配项的第二词汇上,再输出所有第二词汇更新后的权重,计算最终匹配度。