欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020103645901
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于视频图像的人群计数和未来人流量预测的方法,其特征在于包括以下步骤:步骤1、选定具有人工标注信息的视频图像数据集,根据图像中的人头位置的标注进行高斯函数处理,用于生成原始图像对应的真值密度图;

步骤2、搭建多尺度金字塔空洞卷积网络模型,将视频图像数据集中连续视频帧输入到多尺度金字塔空洞卷积网络模型中,充分提取具有多尺度信息的特征图,并映射为人群估计密度图,对人群估计密度图进行积分,统计人群估计密度图中的人数;

其中多尺度金字塔空洞卷积网络模型分两部分:第一部分的结构是VGG-Basic网络;第二部分的结构是由四组并行的具有不同空洞率的空洞卷积层构成;将各分支的输出的特征图与VGG-Basic网络输出的特征图进行通道拼接;

步骤3、构建基于残差连接的Bi-ConvLSTM网络;将得到的人群估计密度图堆叠数帧输入到Bi-ConvLSTM网络中,预测T+1时刻的人群预测密度图,并估计T+1时刻的行人数量;

其中双向ConvLSTM模块是对传统ConvLSTM的改进,输入的人群估计密度图由两个ConvLSTM单元前向和反向叠加计算,输出包含前向序列信息和反向序列信息;

步骤4、先将步骤2中多尺度金字塔空洞卷积网络模型进行预训练,保存模型参数,并将得到的人群估计密度图保存,输入到步骤3的基于残差连接的Bi-ConvLSTM网络中进行训练;采用随机梯度下降算法来优化多尺度金字塔空洞卷积网络模型和Bi-ConvLSTM网络中的参数,使用欧几里德距离来计算人群预测密度图和真值密度图之间的损失。

2.根据权利要求1所述的一种基于视频图像的人群计数和未来人流量预测的方法,其特征在于所述步骤1的具体步骤为:利用二维高斯卷积核将输入的视频图像数据集中的人头位置标注转换为真值密度图,作为带有真值的训练集用于计算损失差;

为了使真值密度图能够更好地与不同视角的密集人群图像对应起来,选择基于几何适应高斯核的真值密度图,由下式表示:真值密度图是由delta脉冲函数与一个高斯函数卷积得来,先卷积后求和;xi表示图像中第i个人头位置,即图像中第i个人头的像素坐标,δ(x-xi)表示图像中人头位置的脉冲函数,N1为图像中的人头总数;

为距离人头位置xi最近的m个人头位置的平均距离,实验验证β=0.3效果最好; 表示人头位置xi与人头位置xj的距离。

3.根据权利要求1或2所述的一种基于视频图像的人群计数和未来人流量预测的方法,其特征在于所述步骤2的具体步骤为:视频图像数据集中连续的视频图像通过多尺度金字塔空洞卷积网络模型生成估计人群密度图;

其中多尺度金字塔空洞卷积网络模型分为两部分:

第一部分是VGG-Basic,以VGG-16网络为基本骨架,只保留前10层卷积层和前3个最大池化层,其余层全部去掉;

第二部分的结构是由四组并行的具有不同空洞率的空洞卷积层构成,分别生成四种不同感受野多尺度信息的特征图;其中,空洞率依次设为r=2l,l=1,2,3,4;每个空洞卷积层有5层卷积层,卷积核的大小设为C=3;然后将四个分支输出的特征图与VGG-Basic输出的特征图进行通道上的拼接,采用1×1卷积层进行特征降维并映射为人群估计密度图(DE),对人群估计密度图(DE)进行积分统计人数。

4.根据权利要求3所述的一种基于视频图像的人群计数和未来人流量预测的方法,其特征在于所述步骤3的具体步骤为:针对连续视频图像的密度图预测,提出基于残差连接的Bi-ConvLSTM网络;将步骤2得到的人群估计密度图输入到基于残差连接的Bi-ConvLSTM网络中进行重建和预测,将{T-t,...,T-1,T}连续时刻的人群估计密度图序列输入到基于残差连接的Bi-ConvLSTM网络中;

所述的基于残差连接的Bi-ConvLSTM网络是以ConvLSTM为基本结构,将ConvLSTM替换成双向ConvLSTM结构,输入的人群估计密度图由两个ConvLSTM单元前向和反向叠加计算,输出特征图包含前向序列信息和反向序列信息,用于重构人群估计密度图序列,并预测未来视频帧序列;

时空序列预测问题是根据先前的J个训练视频帧来预测未来最有可能的K个视频帧序列,其中,先前帧 最有可能的未来帧Fm={Xt+1,Xt+2...,Xt+K},预测未来帧 t表示当前时刻,J表示先前帧的数量,K表示预测帧的数

量,σ(·)是softmax函数;

Bi-ConvLSTM网络由双向ConvLSTM、BN、ReLU激活函数以及残差连接结构构成;最后通过卷积和ReLU函数激活后得到T+1时刻的人群预测密度图,并积分统计出T+1时刻的人流量。

5.根据权利要求3或4所述的一种基于视频图像的人群计数和未来人流量预测的方法,其特征在于所述步骤4的具体内容为:训练过程:先将步骤2中多尺度金字塔空洞卷积网络模型进行预训练,保存模型参数,并将得到的人群估计密度图保存,作为步骤3的输入,输入到基于残差连接的Bi-ConvLSTM网络中进行训练;

使用欧几里得距离来计算人群预测密度图和真值密度图之间的损失,并采用随机梯度下降算法来优化参数,直到损失值收敛到预计值;采用欧氏距离测量生成人群预测密度图与真值密度图的距离时,损失函数定义如下:其中,N表示输入多尺度金字塔空洞卷积网络模型的图片数量,Z(Xi;Θ)为第i幅输入图片对应的人群密度估计图,Xi表示第i张输入图片, 表示第i幅输入图片对的真值密度图;Θ表示网络待学习参数;

评估人群预测密度图时,采用普遍被使用的均方误差MSE和平均绝对误差MAE,具体如下:N表示输入多尺度金字塔空洞卷积网络模型的图片数量,Ci表示第i幅输入图片对应的人群预测密度图中的预测人数, 表示第i幅输入图片对应的真实人数;

测试过程:选择新的连续视频帧数据集输入到训练好的模型中进行测试,输出人群预测密度图,统计结果。