欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2016108205742
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.融合全局R特征的近似重复视频检索方法,其特征在于,具体按照以下步骤实施:步骤1、对数据库中视频提取局部SIFT特征;

步骤2、经步骤1后,根据获取的局部SIFT特征中的坐标信息建立全局R特征;

步骤3、待步骤2完成后,利用局部SIFT特征中描述符信息建立BOF特征模型;

步骤4、根据步骤3得到的BOF特征模型,建立基于BOF的投票检索模型;

步骤5、应用信息融合策略把全局几何分布信息融合到经步骤4建立的基于BOF的投票检索模型中,在大规模的数据中精确的检索近似重复视频。

2.根据权利要求1所述的融合全局R特征的近似重复视频检索方法,其特征在于,所述步骤1具体按照以下方法实施:先对参考视频库中的所有视频进行关键帧提取,然后对每个关键帧都进行SIFT特征提取。

3.根据权利要求2所述的融合全局R特征的近似重复视频检索方法,其特征在于,对所述关键帧提取采用的是均匀采样的方法,且每隔6秒提取一帧图像;

SIFT特征提取是采用独特的尺度不变图像特征中的方法对关键帧提取SIFT特征,其提取的信息包括有:特征点的位置、尺度、角度以及局部描述信息。

4.根据权利要求1所述的融合全局R特征的近似重复视频检索方法,其特征在于,所述步骤2具体按照以下方法实施:根据步骤1得到的局部SIFT特征中的坐标信息建立全局R特征是根据提取的SIFT特征中的位置信息,采用改进的Radon变换来提取全局R特征;

Radon变换是指一个平面内沿不同方向的直线对函数f做线积分,得到的投影就是函数f的Radon变换;这样能将一个离散的二值图像上的每个非零的像素点投影到一个Radon矩阵中;

对于一幅图像f(x,y),x,y为图像中像素的坐标,则该图像f(x,y)经Radon变换表示为如下形式:

在式(1)中:δ(·)是狄拉克δ函数又称为单位脉冲函数,在除了零以外的点都等于零,而其在整个定义域上的积分等于1;θ为角度,且θ∈[0,π);ρ为极径,且ρ∈(-∞,∞);

改进的Radon变换在本发明融合全局R特征的近似重复视频检索方法中又称为R变换,用公式表示为如下形式:

在式(2)中, 是f(x,y)的Radon变换;

改进的Radon变换解决了原变换不具备尺度、旋转及平移不变性的问题;

应用(2D)2PCA主成份分析算法对从R变换得到的矩阵进行主成份分析变换得到相应的低维矩阵作为最终的特征,称为R特征;(2D)2PCA采用的是双向二维主成分分析在高效的人脸表示与识别中的应用中的双向二维主成分分析方法,同时在行和列两个方向上进行主成份分析和计算,以便于能获得更高的识别精度的特征。

5.根据权利要求1所述的融合全局R特征的近似重复视频检索方法,其特征在于,所述步骤3具体按照以下步骤实施:步骤3.1、用大规模数据分级聚类算法对图像库中的SIFT特征中的描述符进行训练,生成类;

所述大规模数据分级聚类算法是一种聚类算法;

步骤3.2,经步骤3.1后,进行量化,生成每幅图像的BOF特征,具体方法如下:量化生成每幅图像的BOF特征是指判断图像的每个特征点与哪个类中心最近,最近的则放入该类中心,最后将生成一列频数表,即初步的无权BOF;接下来通过tf-idf对频数表加上权重,生成最终的加权BOF特征;

其中,对查询视频的特征进行量化方法如下:

q:Rd→[1,k]

在式(3)中q:表示量化,Rd表示实数空间中的d维数据,k表示类中心的数量,xi,j,i=

1,...,m2为参考视频库中第j帧中第i个特征;

计算每帧的tf-idf权值方法具体如下:

Wi=tfi·idfi     (6);

在式(4)~式(6)中:k表示类中心的数量;fij是第i个特征所属的视觉词汇在第j个视频帧上出现的频率;ni是包含第i个特征所属的视觉词汇的参考视频帧的总数;N是总的参考视频数;tfi表示词频率因子;idfi表示逆词频率因子;

步骤3.3,对生成的BOF特征建立倒排索引,具体方法为:倒排索引通常是由量化表文件和倒排表文件两部分组成;

量化表文件记录了文档集中出现的所有词汇;

倒排表文件是将每个词汇在记录文件中的位置和频率等信息都记录下来,所有词汇的这些信息就构成了倒排表;对于量化表文件中的n个词汇w1…wn中的一个wi,在m个记录文件d1…dm中的倒排表能表示为如下形式:

n条上述的记录能构成一个完整的倒排表;

在式(7)中,fi表示频率、方向及尺度信息;

式(7)给出了一个完整的用于查询文本词汇的倒排索引结构。

6.根据权利要求1所述的融合全局R特征的近似重复视频检索方法,其特征在于,所述步骤4具体按照以下步骤实施:给定一个查询帧,用局部特征y表示,并且视频数据库中所有的关键帧用局部特征xj,j=1,...,n表示,基于BOF投票检索的步骤具体如下:步骤4.1、对于查询帧的局部特征yl,l=1,...,m1和视频数据库中所有的关键帧的局部特征xi,j,i=1,...,m2,j=1,...,n计算两个视频帧之间的相似性分数sj,其算法具体如下:

在式(8)中:f是一个匹配函数,它反映了两个特征xi,j和yl之间的相似性程度;

步骤4.2、经步骤4.1后,把特征根据视觉词汇进行量化,并把量化后数据库中视频的特征存储在一个倒排文件中,这个量化过程q采用的是公式(3);

量化后q(xi,j)的结果是与特征xi,j最近的类中心(视觉词汇)的序号;因此,若两个特征xi,j和yl量化后满足q(xi,j)=q(yl),则这两个特征在高维的特征空间中很接近的概率非常高;根据这个原理,考虑到前述的tf-idf加权方法,匹配函数f则定义为如下算法:

则能根据量化后的结果高效地比较两个不同的特征;

步骤4.3、经步骤4.2后,最终用来排序的图像相似性分数sf是对sj进行后处理后得到的,具体按如下算法实施:

由步骤4.2中的式(9)和步骤4.3中的式(10)可以看出:同时考虑了查询视频帧和数据库中关键帧的视觉单词的tf-idf权重,并把两者加入到了基于BOF投票检索方法中,这种加权方法对视觉单词直方图进行了规一化。

7.根据权利要求1所述的融合全局R特征的近似重复视频检索方法,其特征在于,所述步骤5具体按照以下方法实施:若两个特征x和y量化到同一个类中心上反映了这两个特征描述符的欧氏距离d(x,y)是很小的,则R特征所描述的欧氏空间中的网络之间的距离也是很小的;基于这一点,一个描述符由q(x)和b(x),q是一个量化器,b是R特征;则把R特征嵌入到BOF检索模型中,重新定义的匹配函数f的功能,具体算法如下:

在式(11)中:d表示欧式距离;ht表示一个域值;

在量化时类中心数要取小一些的值,尽量让相近的视频能匹配上,而ht也相应的要取小值,这里ht=0.005,以便于能根据R特征的距离去除误匹配的视频。