1.一种从监控视频中检测跌倒行为的系统,其特征在于,包括依次连接的关键帧提取模块、行人检测模块、人体关键点检测模块、连续姿态特征编码模块以及输出模块;
所述关键帧提取模块,用于获取监控视频流,并提取视频帧;
所述行人检测模块,用于构建行人检测模型,并设置行人检测模型中检测帧的间隔,根据每个视频帧的图像,利用行人检测模型监控画面中的行人,将行人区域分割为人体区域子图;
所述人体关键点检测模块,用于构建关键点检测模型,并利用所述关键点检测模型从人体区域子图中提取行人的人体关键点,根据所述人体关键点生成人体姿态信息;
所述连续姿态特征编码模块,用于对累积的连续人体姿态信息是否达到预设的阈值进行判断;以及用于对连续的人体姿态信息进行时间域类图像特征编码,得到连续时间域的人体姿态类图像特征张量;
所述输出模块,用于根据所述连续时间域的人体姿态类图像特征张量,利用神经网络模型检测跌倒行为,并输出检测结果,完成对跌倒行为的检测。
2.一种从监控视频中检测跌倒行为的方法,其特征在于,包括以下步骤:S1、获取监控视频流,并提取视频帧;
S2、构建行人检测模型;
S3、设置行人检测模型中检测帧的间隔,并根据每个视频帧的图像,利用行人检测模型判断监控画面中是否有行人,若是,则将行人区域分割为人体区域子图,并进入步骤S4,否则,返回步骤S1;
S4、构建关键点检测模型,并利用所述关键点检测模型从人体区域子图中提取行人的人体关键点,根据所述人体关键点生成人体姿态信息;
S5、判断累积的连续人体姿态信息是否达到预设的阈值,若是,则进入步骤S6,否则,返回步骤S1;
S6、对连续的人体姿态信息进行时间域类图像特征编码,得到连续时间域的人体姿态类图像特征张量;
S7、根据所述连续时间域的人体姿态类图像特征张量,利用神经网络模型检测跌倒行为,并输出检测结果,完成对跌倒行为的检测。
3.根据权利要求2所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S2包括以下步骤:S201、标注行人检测训练的图像数据;
S202、根据所述图像数据,基于YOLOv3-tiny模型分别将输入图片大小设置为448×
448、输出类别设置为1以及训练达到的最大批次设置为6000;
S203、利用Darknet网络的预训练网络参数初始化YOLOv3-tiny模型;
S204、利用迁移学习方法和行人检测数据训练YOLOv3-tiny模型,得到行人检测模型。
4.根据权利要求2所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S4包括以下步骤:S401、构建关键点检测模型,并根据所述关键点检测模型从人体区域子图中提取行人的人体关键点;
S402、连接所述人体关键点得到人体的关键点位置,并根据所述人体关键点位置生成人体姿态信息。
5.根据权利要求4所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S401中关键点检测模型包括两个分支,其中:一个分支用于预测关键点热力图,另一个分支用于预测部分联通区域PAF,且每个分支由M个阶段组成。
6.根据权利要求5所述的从监控视频中检测跌倒行为的方法,其特征在于,所述关键点检测模型的目标函数表达式如下:其中,f表示关键点检测模型的目标函数,m表示预测阶段数量,M表示预测阶段总数,表示关键点检测模型中的一个分支, 表示关键点检测模型中的另一个分支,表示关键点检测模型中第一个分支的关键点热力图真值, 表示关键点检测模型中第一个分支的关键点热力图预测值,W(p)表示二元掩码,J表示背景图,i表示关键点个数,p表示像素坐标, 表示关键点模型中第二个分支的部分联通区域PAF真值, 表示关键点模型中第二个分支中第m个预测阶段的部分联通区域PAF预测值,C表示人体肢体总数,c表示人体肢体个数。
7.根据权利要求6所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S401中任意两个人体关键点的相关性的表达式如下;
其中,E表示任意两个人体关键点的相关性, 表示线性积分运算,Lc(p)表示关键点模型中第二个分支的部分联通区域PAF预测值,dj1和dj2表示任意两个点的关键位置。
8.根据权利要求4所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S402中人体姿态信息的表达式如下:pt=[x0,y0,c0,id0,x1,y1,c1,...,xi,yi,ci,...,x17,y17,c17]xi∈[0.1]
yi∈[0.1]
ci∈[0.1]
i∈{0,1,2,...,17}
其中,pt表示人体姿态信息,xi和yi分别表示归一化后的第i个人体关键点的x轴和y轴,xi'和yi'表示原始坐标值,width和height分别表示视频图像的宽度和高度,ci表示第i个人体关键点的置信度。
9.根据权利要求2所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S6包括以下步骤:S601、初始化一个2×18×18尺寸的张量PI,利用所述张量PI存储连续时间域的人体姿态类图像特征向量,并将连续时间域的人体姿态类图像特征张量的所有元素初始化为0,其表达式如下:PI(ch,xi,yi)=0
其中,PI(ch,xi.yi)表示连续时间域的人体姿态类图像特征向量张量,ch表示张量的第一个维度,xi和yi分别表示归一化后的第i个人体关键点的x轴和y轴坐标值;
S602、依据时间顺序,依次将人体姿态信息中的各个关键点的x坐标作为第一通道图像像素值;
所述第一通道图像像素值的映射关系表达式如下:
t t
PI(ch,xi,yt)=p(xi)=p[i×3]i=0,1,2,...,17
t=0,1,2,...,17
ch=0
其中,pt[i×3]表示t时刻人体姿态信息中向量的第i×3个元素,pt表示t时刻的人体姿态信息,pt(xi)表示人体姿态信息中第i个人体关键点的x坐标值。
S603、依据时间顺序,依次将人体姿态信息中的各个关键点的y坐标作为第二通道图像像素值;
所述第二通道图像像素值的映射关系表达式如下:
PI(ch,xi,yt)=pt(yi)=pt[i×3+1]i=0,1,2,...,17
t=0,1,2,...,17
ch=1
其中,pt(yi)表示人体姿态信息中第i个人体关键点的y坐标值,pt[i×3+1]表示t时刻人体姿态信息中向量的第i×3+1个元素;
S604、根据所述第一通道图像像素值和第二通道图像像素值得到连续时间域的人体姿态类图像特征张量。
10.根据权利要求2所述的从监控视频中检测跌倒行为的方法,其特征在于,所述步骤S7中神经网络模型包括依次连接的输入层、第一卷积层、第二卷积层、最大池化层、第三卷积层、第一全连接层、第二全连接层、第三全连接层以及输出层;所述第一卷积层、第二卷积层以及第一全连接层均设置了ReLU激活函数;
所述第一卷积层、第二卷积层以及第三卷积层的卷积核大小均为3×3,通道数为32;
所述第一全连接层的通道数为1024,所述第二全连接层的通道数为512,所述第三全连接层的通道数为2。