欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022109652109
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文本分类方法,包括:

获取待分类文本;

调用目标文本向量生成模型处理所述待分类文本,生成所述待分类文本的第一文本向量;其中,所述目标文本向量生成模型基于以下方式训练得到:获取样本文本,替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组,将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到所述目标文本向量生成模型;

从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量;其中,所述向量检索库中配置有多个带有分类标签的第二文本向量;

分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分;

根据属于相同所述分类标签的第二文本向量的相似度评分,确定与各所述分类标签对应的相似度评分和,并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。

2.根据权利要求1所述的方法,还包括:

响应于接收到针对所述向量检索库的向量更新请求,获取所述向量更新请求中所包括的第三文本向量;

从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量;

基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别,并呈现所述参考文本类别;

响应于接收到针对所述参考文本类别的确认信息,基于所述参考文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。

3.根据权利要求2所述的方法,还包括:

响应于接收到针对所述参考文本类别的更新信息,基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。

4.根据权利要求1所述的方法,其中,所述从预先配置的向量检索库中召回预设数量与所述第一文本向量相似度超过第二相似度阈值的第二文本向量,包括:获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度;

将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;

基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。

5.根据权利要求1所述的方法,还包括:

构建通用同义词表单和/或领域同义词表单;以及

所述替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组,包括:获取所述样本文本中的至少一个分词,分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词;

利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本;

生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。

6.根据权利要求1所述的方法,还包括:

响应于所述样本文本的长度未超过长度阈值,基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。

7.根据权利要求5‑6中任一项所述的方法,其中,所述将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到目标文本向量生成模型,包括:将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到所述目标文本向量生成模型。

8.一种文本分类装置,包括:

待分类文本获取单元,被配置成获取待分类文本;

文本向量生成单元,被配置成调用目标文本向量生成模型处理所述待分类文本,生成所述待分类文本的第一文本向量;其中,所述目标文本向量生成模型基于以下单元训练得到:样本文本获取单元,被配置成获取样本文本,样本文本组生成单元,被配置成替换所述样本文本中的至少一个分词为所述分词的同义词,生成所述样本文本的同义文本,并生成由所述样本文本和所述同义文本组成的样本文本组,文本向量生成模型训练单元,被配置成将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,对初始文本向量生成模型进行训练,得到所述目标文本向量生成模型;

第二文本向量召回单元,被配置成从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量,其中,所述向量检索库中配置有多个带有分类标签的第二文本向量;

文本分类单元,被配置成分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分,根据属于相同所述分类标签的第二文本向量的相似度评分,确定与各所述分类标签对应的相似度评分和,并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。

9.根据权利要求8所述的装置,还包括:

第三文本向量获取单元,被配置成响应于接收到针对所述向量检索库的向量更新请求,获取所述向量更新请求中所包括的第三文本向量;

参照第二文本向量提取单元,被配置成从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量;

参考文本类别呈现单元,被配置成基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别,并呈现所述参考文本类别;

向量检索库第一更新单元,被配置成响应于接收到针对所述参考文本类别的确认信息,基于所述参考文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。

10.根据权利要求9所述的装置,还包括:

向量检索库第二更新单元,被配置成响应于接收到针对所述参考文本类别的更新信息,基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签,并将带有所述分类标签的第三文本向量存入所述向量检索库。

11.根据权利要求8所述的装置,其中,所述第二文本向量召回单元,包括:向量相似度获取子单元,被配置成获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度;

目标第二文本向量获取子单元,被配置成将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量;

第二文本向量召回子单元,被配置成基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序,并从排序结果中召回前预设数量的目标第二文本向量。

12.根据权利要求8所述的装置,还包括:

同义词表单构建单元,被配置成构建通用同义词表单和/或领域同义词表单;以及所述样本文本组生成单元,包括:同义词获取子单元,被配置成获取所述样本文本中的至少一个分词,分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词;

同义文本构建子单元,被配置成利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本;

样本文本组生成子单元,被配置成生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。

13.根据权利要求8所述的装置,还包括:

样本文本修正单元,被配置成响应于所述样本文本的长度未超过长度阈值,基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。

14.根据权利要求12‑13中任一项所述的装置,其中,所述文本向量生成模型训练单元被进一步被配置成:将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出,使用批次内负采样的方式对对偶式检索模型进行训练,得到所述目标文本向量生成模型。

15.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7任一项所述的文本分类方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1‑7任一项所述的文本分类方法。