1.基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:包括以下步骤:步骤1、提取新闻视频帧,并将所提取的新闻视频帧转化为灰度图像;
步骤2、构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类,获得分类为文字类的像素点;
步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域;
步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图;
步骤5、再次构建BP神经网络作为分类器,将候选文字区域分类,滤除假阳性区域。
2.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2构建BP神经网络作为分类器,将每个图像内的所有像素点进行分类的具体方法为:步骤2.1、对图像内的所有像素点进行角点检测,将被判定为角点的像素点赋予特征值
1,非角点赋予特征值0;
步骤2.2、依次将每个像素点作为中心像素点,取其M*M大小的邻域窗口作为特征窗口;
步骤2.3、构建神经网络,将所取窗口内所有像素点的灰度值以及角点判定值作为神经网络的输入,输入层结点的个数m设置为M*M*2个,输出层结点个数n设置为2;
步骤2.4、设置隐含层结点,隐含层结点的个数N的设置由公式(1)或(2)计算得到:其中,N表示所设置隐含层结点的个数,m和n分别表示输入层和输出层结点的个数,a为常数;
步骤2.5、输出层2个结点分别代表文字类和非文字类,输出为一个包含两个浮点值的向量,标定样本时,将属于文字类的像素点标定为(1,0),将非文字类的像素点标定为(0,
1);
步骤2.6、对神经网络进行训练和测试,测试样本的像素点的输出向量中,如果第一个值大于第二个值,那么该像素点被分类为文字类,如果第二个值大于第一个值,那么该像素点被分类为非文字类,最后将所有被判定为文字类的像素点进行标记。
3.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤3对分类为文字类的像素点进行基于距离的聚类处理,获得候选文字区域的具体方法为:步骤3.1、设置距离阈值d1,在所有被分类为文字类的像素点中,随机选择一个像素点P1作为基本像素点,并计算P1和其它被分类为文字类的像素点之间的欧氏距离,并将欧氏距离小于d1的像素点加入P1的集合G1,直到所有满足条件的像素点都被找到,然后将G1中除P1外的其他像素点依次作为基本像素点进行同样的操作,直到没有新的像素点加入该集合,则集合G1将被分类为K1类;
步骤3.2、对所有被分类为文字类的除K1类外的其他像素点依次重复以上操作,直到所有文字类像素点被分类,得到所有的类Kt,t≥1;
步骤3.3、将所有包含过少像素点的类清除;
步骤3.4、做出每个类的最小外接矩形,即获得了候选文字区域。
4.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤4对获得的候选文字区域进行快速傅里叶变换得到频谱图的具体方法为:步骤4.1、对候选文字区域进行图像的二值化;
步骤4.2、将二值化后的图像进行竖直方向上的灰度投影;
步骤4.3、对投影后的函数进行快速傅里叶变换,将时间域转换到频率域,得到频谱图。
5.根据权利要求1所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤5将候选文字区域分类,滤除假阳性区域的具体方法为:步骤5.1、在频谱图中,选取平均文字宽度的2到3倍大小的特征窗口,此窗口不包含频率1;
步骤5.2、构建BP神经网络,将所取窗口范围内频率所对应的的幅值以及平均文字宽度附近频率内最高幅值所处的频率值作为神经网络的输入值,设置输出层结点数为2;
步骤5.3、使用公式(1)或公式(2)进行隐含层结点的选取;
步骤5.4、2个输出层结点数分别代表真阳性区域(含有文字的候选文字区域)和假阳性区域(不含有文字的候选文字区域),输出为一个包含两个浮点值的向量,标定样本时,将真阳性文字区域标定为(1,0),将假阳性区域标定为(0,1);
步骤5.5、对神经网络进行训练和测试,测试样本的候选文字区域的输出向量中,如果第一个值大于第二个值,那么该候选区域将被分类为真阳性类,如果第二个值大于第一个值,那么该候选区域将被分类为假阳性类并予以滤除;
步骤5.6、滤除假阳性区域后所剩的真阳性候选文字区域即为最终文字定位区域。
6.根据权利要求2所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2.1中进行角点检测的方法为Harris角点检测法。
7.根据权利要求2所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤2.4中常数a的取值为1-10。
8.根据权利要求3所述的基于BP神经网络和频谱分析的视频文字区域定位方法,其特征在于:所述步骤3.3中被清除的类的像素点的个数小于20个。