1.一种基于离散化布谷鸟搜索算法的伪标记数据生成方法,其特征在于,包括以下步骤:
S101、对于每一个查询采用池化技术获取少量的标记数据;
S102、对每一个查询‑文档对中,特征向量空间的每一维的特征进行归一化;
S103、对查询‑文档对的特征种类进行分类,同时计算每一类特征向量到原点的欧式距离,并将此距离作为鸟窝的特征维度变量;
S104、对步骤S103中得到的特征向量进行离散化,针对每一维特征变量所在的区间范围,均等划分为N个区间,在后续搜索过程中若鸟窝特征点落在某个区间范围内,则认为该区间中所有的特征值均是该鸟窝匹配的特征值;
S105、针对每一个查询,应用基本检索模型BM25得到的初始结果列表的前100个文档,作为每一个查询的候选未标记数据集;
S106、在候选未标记数据集中随机选择M个特征向量作为初始鸟窝位置;
对每个鸟窝按照公式(1)进行相似度度量,保存初始最优解;
其中,αti,βti,γti是少量标记文档特征向量空间的特征值,αsi,βsi,γsi是候选文档特征向量空间的特征值;t为迭代次数,f(t)的值代表每个鸟窝和标记文档的特征向量的相似度数值;
其中,Xi代表鸟窝在不同时刻的位置,v服从标准正态分布,u服从标准差为α的正态分布,Xopt代表当前的最佳鸟窝位置,t为迭代次数;
设计自适应飞行步长调整算法,每个鸟窝根据公式(2)计算产生新的解,判断新鸟窝是否超过飞行范围,对于未超过飞行范围的鸟窝,则找到候选文档特征向量库中该鸟窝位置范围内的所有特征向量,并用公式(1)测试,找到当前最优的文档特征向量,如果当前最优的文档特征优于全局最优特征向量,则替换全局最优文档特征向量;对于超过飞行范围的鸟窝,则返回到步骤S106,即随机选择初始鸟窝;
其中,自适应飞行距离调整算法可以根据当前鸟窝位置和当前全局最优鸟窝位置的距离进行调整。如果当前鸟窝位置距离全局最优位置距离较远时,则提高自适应调整系数,增加飞行步长;若当前鸟窝位置距离全局最优位置较近时,则降低自适应系数,减少飞行步长;
S107、产生一个随机数a,如果a大于外来蛋被发现的概率P,则随机改变生成新鸟窝,再利用公式(1)比较新产生的解与全局最优位置的相似度,选择最优鸟窝值作为当前全局最优位置;
S108、如果在迭代过程中鸟窝位置收敛或者达到预设的最大迭代次数,则搜索停止;
最后将每次迭代的全局最优位置根据公式(1)得到的相似度,按照从小到大的排序作为最终检索结果;反之,则按步骤S106进行下一轮搜索。
2.根据权利要求1所述的方法,其中,步骤S102中,所述归一化的方法为最大‑最小值归一化方法,归一化之后各维度的特征值在[0,1]范围之内。
3.根据权利要求1所述的方法,其中,步骤S103中,特征划分为9大类,分别为基于TF的、基于IDF的、基于TF*IDF的、基于DL的、基于BM25的、基于LMIR.ABS的、基于LMIR.DIR的、基于LMIR.JM的和基于PageRank的。