欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201811298577X
申请人: 宁波大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-04-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向大规模数据的自适应最近邻查询方法,其特征在于包括以下步骤:

①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据;

②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度;

③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引;

④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表;

⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集;

⑥将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。

2.根据权利要求1所述的一种面向大规模数据的自适应最近邻查询方法,其特征在于所述的k次AND操作的具体过程为:根据原始大规模数据集特征及查询精度的需求确定局部敏感哈希函数个数k,并根据局部敏感哈希函数族构建k个哈希函数,对所有原始大规模数据集中的每个原始大规模数据分别通过k个哈希函数进行映射,将原始大规模数据集划分至2k个子空间,然后按每个子空间中存在的数据数量对子空间降序排序,得到与原始大规模数据集对应的2k个经过降序排序后的子数据集;L次OR操作的具体过程为:将上述k次AND操作执行L次,每次取k个不同的局部敏感哈希函数,最终得到L组不同的2k个经过降序排序后的子数据集,然后将L组不同的2k个经过降序排序后的子数据集按融合因子β进行融合得到最终的2k个子数据集,其中, rank表示子数据集在对应的一组2k个经过降序排序后的子数据集中的排序序号,jac表示jaccard相似系数。