欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019108865854
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-08-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的恶意软件图像格式检测方法,包括以下步骤:

1)构建恶意软件样本数据集;具体包括:

1.1)收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;

1.2)考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;

2)转换为恶意软件图像格式,具体包括:

2.1)对于步骤1.1)中的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;

2.2)再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;

2.3)将十进制长数组以一定的方式进行拼接,转换为64×64大小的恶意软件灰度图像;

2.4)最后获取图像格式的恶意软件样本;

3)构建卷积神经网络分类器;卷积神经网络作为经典的深度学习网络,被广泛地应用在计算机视觉和图像分类任务中;对输入大小为64×64×1的初始灰度图像,长、宽都为64个像素,灰度图的通道数为1,构建卷积神经网络分类器,具体包括:

3.1)将步骤2.4)获取的灰度图像依次经过4层卷积层,分别为卷积层1、卷积层2、卷积层3和卷积层4,在初始的4层卷积层中使用长度为2的步幅,快速降低图像在网络训练过程中各层输出的特征图的大小,在各卷积层中,都使用ReLU激活函数来避免Sigmoid等激活函数可能带来的梯度饱和问题,改善网络的训练过程;

为尽可能多地挖掘图像信息,每层卷积都使用添零补位的操作,使卷积核可遍历输入图的每一个像素点,同时卷积核的大小随网络深度的增加逐渐降低;初始卷积核数为128,随着网络深度的增加而增加,挖掘更多的高维特征信息;

3.2)在经过4层卷积层后送入1层全连接层,整合前面各层卷积的视野特征,输出N个类别的分类值;

3.3)最后将步骤3.2)获取的N个类别的分类值通过1层Softmax网络层转化为分类概率,概率最大的类别就是当前样本的分类结果;

4)根据样本数据集对分类器进行训练,过程如下:

4.1)获取损失函数;选取的损失函数基于预测分类和样本标签的交叉熵,其格式采用one-hot编码表示,如[0,0,1,0,0,0]表示的样本的标签为6个类别中的第3个;交叉熵表达式如下:其中yi是样本i的标签,y′i是样本i的预测值,Hi是样本i的交叉熵;首先将样本的预测分类和样本标签的log函数相乘取反,one-hot各维度的熵值累加得到交叉熵;

通过计算所有样本交叉熵的平均值达到当前训练数据的损失函数,表达式如下:

4.2)将步骤2)获取的图像格式的样本输入步骤3)构建好的卷积神经网络分类器进行训练,训练时采用小批量梯度下降的训练方法,每次从训练集中随机选择一批数据用于模型的训练,既可避免随机梯度下降产生的训练震荡,也可避免批量梯度下降对资源的过度消耗,批的大小选择128;考虑到网络更新的稳定性,学习率定为0.001,使用超参数自适应调整的Adam优化器进行训练,训练目标是通过梯度的前向和反向传播调整网络的结构参数,不断降低模型的损失函数值;

4.3)为避免实验偶然性的干扰,实验采用十折交叉验证,即将数据集分成10份,每次选取其中的9份用于训练,一份用于测试,最终对所有结果取平均作为最终的实验结果,恶意软件图像的分类器达到87.17%的分类精度。

2.如权利要求1所述的基于深度学习的恶意软件图像格式检测方法,其特征在于:所述步骤1)中,获取了9个恶意软件家族样本数据集,共10868个恶意软件样本,将恶意软件原始“.asm”后缀的汇编语言文件通过ASCII映射、进制转换、拼接转换为64×64大小的恶意软件灰度图像。

3.如权利要求1所述的基于深度学习的恶意软件图像格式检测方法,其特征在于:在所述步骤3.3)中,除去输入层网络共6层,训练参数共6,780,161个,除去偏置值和全连接层,且实际训练时由于前向、反向计算和优化器的使用,使用的参数量将有所增加;通过网络的层次传递,输入的64×64×1大小的灰度图像数值矩阵,最后输出该样本被分类到N个类别的概率大小。

4.如权利要求1所述的基于深度学习的恶意软件图像格式检测方法,其特征在于:在所述步骤4.3)中,恶意软件训练过程中,其精度在第15次迭代后渐渐稳定,损失函数值在第15次迭代后逐渐停止变化;恶意软件图像的分类器达到87.17%的分类精度,其中精度为分类正确的样本占总样本的比例,精度的计算公式如下:其中f(xi)为分类器对样本i的分类结果,yi为样本真实的标签,样本总数为n。

5.实施如权利要求1所述的一种基于深度学习的恶意软件图像格式检测方法的装置,其特征在于:包括:数据集获取单元,构建恶意软件样本数据集;具体包括:

收集各个恶意软件家族样本数据集,数据以“.asm”后缀的汇编语言文件类型保存;

考虑各个类别的样本数量差异以及为便于后续的工作,将各个类别数据集以训练集占比约80%、测试集占比约20%的比例划分;

数据集转换单元,将恶意软件转换为图像格式,具体包括:

对于数据集获取单元中的“.asm”后缀的汇编语言文件,文件的每个字符都可以在ASCII编码中找到,首先将其通过ASCII标准表映射为十六进制的数字;

再通过进制转换转化为十进制的数字,恶意软件的长字符串就转化为十进制的长数组;

将十进制长数组以一定的方式进行拼接,转换为64×64大小的恶意软件灰度图像;

最后获取图像格式的恶意软件样本;

分类器生成单元,构建卷积神经网络分类器;卷积神经网络作为经典的深度学习网络,被广泛地应用在计算机视觉和图像分类任务中;对输入大小为64×64×1的初始灰度图像,长、宽都为64个像素,灰度图的通道数为1,构建卷积神经网络分类器,具体包括:将数据集转换单元获取的灰度图像依次经过4层卷积层,分别为卷积层1、卷积层2、卷积层3和卷积层4,在初始的4层卷积层中使用长度为2的步幅,快速降低图像在网络训练过程中各层输出的特征图的大小,在各卷积层中,都使用ReLU激活函数来避免Sigmoid等激活函数可能带来的梯度饱和问题,改善网络的训练过程;

为尽可能多地挖掘图像信息,每层卷积都使用添零补位的操作,使卷积核可遍历输入图的每一个像素点,同时卷积核的大小随网络深度的增加逐渐降低;初始卷积核数为128,随着网络深度的增加而增加,挖掘更多的高维特征信息;

在经过4层卷积层后送入1层全连接层,整合前面各层卷积的视野特征,输出的N个类别的分类值;

最后将获取的N个类别的分类值通过1层Softmax网络层转化为分类概率,概率最大的类别就是当前样本的分类结果;

分类器训练单元,根据样本数据集对分类器进行训练,具体包括:

获取损失函数;选取的损失函数基于预测分类和样本标签的交叉熵,其格式采用one-hot编码表示,如[0,0,1,0,0,0]表示的样本的标签为6个类别中的第3个;交叉熵表达式如下:其中yi是样本i的标签,y′i是样本i的预测值,Hi是样本i的交叉熵;首先将样本的预测分类和样本标签的log函数相乘取反,one-hot各维度的熵值累加得到交叉熵;

通过计算所有样本交叉熵的平均值达到当前训练数据的损失函数,表达式如下:

将数据集转换单元获取的图像格式的样本输入分类器生成单元构建好的卷积神经网络分类器进行训练,训练时采用小批量梯度下降的训练方法,每次从训练集中随机选择一批数据用于模型的训练,既可避免随机梯度下降产生的训练震荡,也可避免批量梯度下降对资源的过度消耗,批的大小选择128;考虑到网络更新的稳定性,学习率定为0.001,使用超参数自适应调整的Adam优化器进行训练,训练目标是通过梯度的前向和反向传播调整网络的结构参数,不断降低模型的损失函数值;

为避免实验偶然性的干扰,实验采用十折交叉验证,即将数据集分成10份,每次选取其中的9份用于训练,一份用于测试,最终对所有结果取平均作为最终的实验结果,恶意软件图像的分类器达到87.17%的分类精度。