知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

文本向量生成模型训练方法、文本分类方法及相关装置

￥28000

专利号： 2022109652109

申请人：北京百度网讯科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种文本分类方法，包括：

获取待分类文本；

调用目标文本向量生成模型处理所述待分类文本，生成所述待分类文本的第一文本向量；其中，所述目标文本向量生成模型基于以下方式训练得到：获取样本文本，替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到所述目标文本向量生成模型；

从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量；其中，所述向量检索库中配置有多个带有分类标签的第二文本向量；

分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分；

根据属于相同所述分类标签的第二文本向量的相似度评分，确定与各所述分类标签对应的相似度评分和，并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。

2.根据权利要求1所述的方法，还包括：

响应于接收到针对所述向量检索库的向量更新请求，获取所述向量更新请求中所包括的第三文本向量；

从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量；

基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别，并呈现所述参考文本类别；

响应于接收到针对所述参考文本类别的确认信息，基于所述参考文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。

3.根据权利要求2所述的方法，还包括：

响应于接收到针对所述参考文本类别的更新信息，基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。

4.根据权利要求1所述的方法，其中，所述从预先配置的向量检索库中召回预设数量与所述第一文本向量相似度超过第二相似度阈值的第二文本向量，包括：获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度；

将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量；

基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序，并从排序结果中召回前预设数量的目标第二文本向量。

5.根据权利要求1所述的方法，还包括：

构建通用同义词表单和/或领域同义词表单；以及

所述替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，包括：获取所述样本文本中的至少一个分词，分别获取所述分词在所述通用同义词表单中的通用同义词和/或在所述领域同义词表单中的领域同义词；

利用所述通用同义词替换所述分词得到通用同义文本和/或利用所述领域同义词替换所述分词得到领域同义文本；

生成由所述样本文本和所述通用同义文本和/或所述领域同义文本组成的样本文本组。

6.根据权利要求1所述的方法，还包括：

响应于所述样本文本的长度未超过长度阈值，基于所述样本文本的前文语句和/或后文语句将所述样本文本的长度增至所述长度阈值对应的长度。

7.根据权利要求5‑6中任一项所述的方法，其中，所述将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到目标文本向量生成模型，包括：将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，使用批次内负采样的方式对对偶式检索模型进行训练，得到所述目标文本向量生成模型。

8.一种文本分类装置，包括：

待分类文本获取单元，被配置成获取待分类文本；

文本向量生成单元，被配置成调用目标文本向量生成模型处理所述待分类文本，生成所述待分类文本的第一文本向量；其中，所述目标文本向量生成模型基于以下单元训练得到：样本文本获取单元，被配置成获取样本文本，样本文本组生成单元，被配置成替换所述样本文本中的至少一个分词为所述分词的同义词，生成所述样本文本的同义文本，并生成由所述样本文本和所述同义文本组成的样本文本组，文本向量生成模型训练单元，被配置成将所述样本文本组作为输入、将与所述样本文本的语义向量相似度超过第一相似度阈值的目标语义向量作为输出，对初始文本向量生成模型进行训练，得到所述目标文本向量生成模型；

第二文本向量召回单元，被配置成从预先配置的向量检索库中召回预设数量的与所述第一文本向量相似度超过第二相似度阈值的第二文本向量，其中，所述向量检索库中配置有多个带有分类标签的第二文本向量；

文本分类单元，被配置成分别基于所述第一文本向量与所述第二文本向量的相似度生成各所述第二文本向量的相似度评分，根据属于相同所述分类标签的第二文本向量的相似度评分，确定与各所述分类标签对应的相似度评分和，并将所述相似度评分和超过分数阈值的分类标签确定为所述待分类文本的文本类别。

9.根据权利要求8所述的装置，还包括：

第三文本向量获取单元，被配置成响应于接收到针对所述向量检索库的向量更新请求，获取所述向量更新请求中所包括的第三文本向量；

参照第二文本向量提取单元，被配置成从所述向量检索库提取与所述第三文本向量相似度超过第三相似度阈值的参照第二文本向量；

参考文本类别呈现单元，被配置成基于所述参照第二文本向量的分类标签的分布结果确定所述第三文本向量的参考文本类别，并呈现所述参考文本类别；

向量检索库第一更新单元，被配置成响应于接收到针对所述参考文本类别的确认信息，基于所述参考文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。

10.根据权利要求9所述的装置，还包括：

向量检索库第二更新单元，被配置成响应于接收到针对所述参考文本类别的更新信息，基于所述更新信息中标记的更新文本类别生成所述第三文本向量的分类标签，并将带有所述分类标签的第三文本向量存入所述向量检索库。

11.根据权利要求8所述的装置，其中，所述第二文本向量召回单元，包括：向量相似度获取子单元，被配置成获取预先配置的向量检索库中各所述第二文本向量与所述第一文本向量的相似度；

目标第二文本向量获取子单元，被配置成将所述相似度超过第二相似度阈值的第二文本向量确定为目标第二文本向量；

第二文本向量召回子单元，被配置成基于各所述目标第二文本向量与所述第一文本向量的相似度数值进行降序排序，并从排序结果中召回前预设数量的目标第二文本向量。