欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018111411833
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种图片训练样本挖掘方法,其特征在于,包括:根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;

根据所述图片描述文本训练得到通用文本相似度模型;

利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;

利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;

将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本。

2.根据权利要求1所述的方法,其特征在于,利用所述通用文本相似度模型和类别特征参数训练得到垂类模型之前,还包括:根据所述图片描述文本分类得到多个所述训练样本类别;

在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据,所述垂类数据包括分类后的图片和对应的图片描述文本;

根据所述分类后的图片和图片描述文本提取所述类别特征参数。

3.根据权利要求1所述的方法,其特征在于,将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本的步骤包括:将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中,输出第一图片集合;

利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型;

将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中,输出第二图片集合。

4.根据权利要求3所述的方法,其特征在于,输出第二图片集合之后,还包括:利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型;

将所述第二图片集合中的图片输入至所述新文本语义相似度模型中,输出第三图片集合;

利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型;

将所述第二图片集合中的图片输入至所述新图片内容相似度模型中,输出第四图片集合。

5.根据权利要求4所述的方法,其特征在于,输出第四图片集合之后,还包括:判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致;

若一致,则输出所述第四图片集合,以构成所述图片训练样本;

若不一致,则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作,直至输出图片内容相似度和文本语义相似度一致的所述图片训练样本。

6.一种图片训练样本挖掘装置,其特征在于,包括:候选图片获取模块,用于根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;

通用文本相似度模型训练模块,用于根据所述图片描述文本训练得到通用文本相似度模型;

垂类模型训练模块,用于利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;

候选图片分类模块,用于利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;

样本训练模块,用于将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本。

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:图片描述文本分类模块,用于根据所述图片描述文本分类得到多个所述训练样本类别;

垂类数据抓取模块,用于在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据,所述垂类数据包括分类后的图片和对应的图片描述文本;

类别特征参数提取模块,用于根据所述分类后的图片和图片描述文本提取所述类别特征参数。

8.根据权利要求6所述的装置,其特征在于,所述样本训练模块包括:第一分类单元,用于将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中,输出第一图片集合;

图片内容相似度模型训练单元,用于利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型;

第二分类单元,用于将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中,输出第二图片集合。

9.根据权利要求8所述的装置,其特征在于,所述样本训练模块还包括:文本语义相似度模型更新单元,用于利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型;

第三分类单元,用于将所述第二图片集合中的图片输入至所述新文本语义相似度模型中,输出第三图片集合;

图片内容相似度模型更新单元,利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型;

第四分类单元,将所述第二图片集合中的图片输入至所述新图片内容相似度模型中,输出第四图片集合。

10.根据权利要求9所述的装置,其特征在于,所述样本训练模块还包括:判断单元,用于判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致;

图片训练样本输出单元,用于若一致,则输出所述第四图片集合,以构成所述图片训练样本;若不一致,则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作,直至输出图片相似度和文本语义相似度一致的所述图片训练样本。

11.一种图片训练样本挖掘终端,其特征在于,包括:一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。