1.一种基于大数据的网络流量异常实时监测系统,其特征在于,包括:
数据采集模块(701):用于把嗅探器工具分布式放置于网络中,实时抓取网络数据包信息并发送给URL处理模块(702);
URL处理模块(702):用于根据接收的网络数据包信息,对统一资源定位符进行特征提取,并转发给URL分析模块(703);
URL分析模块(703):对大量URL数据进行有监督学习,得到能够通过对URL进行分析判定出访问性质的模型;将提取过有效信息的URL输入模型,经过多个分类器的分类打标,确定该URL的访问性质;
及时响应模块(704):在确定URL的访问性质后及时响应前端,在监测到访问异常的情况下及时对用户作出警示,同时可视化呈现攻击次数与形式。
2.根据权利要求1所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述URL处理模块(702)中对URL的进行特征提取,具体方法如下:去除“#”后的无效数据;将剩余片段按“?”进行切割;分理出文件路径片段,以“/”与“=”划分;查询部分以“&”与“=”划分;
将划分所得的参数与值分别放入处理函数中进行正则匹配,处理完毕后的片段即为模型需要的URL信息片段。
3.根据权利要求1所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述数据采集模块与URL处理模块(702)间设置了一个用于减小服务器负担的Cache层。
4.根据权利要求1所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述URL分析模块(703)将提取过有效信息的URL输入模型,经过多个分类器的分类打标,确定该URL的访问性质具体包括:分别选取以下特征进行分类打标:URL参数值的长度异常值:字符分布,利用统计学中的卡方检验计算字符分布的异常值α;枚举类型,计算属性值的输入属于枚举类型异常的情况;关键词抽取,寻找相同访问性质的URL共同特征,在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录,筛除频次过低的字符串后对剩余字符串做互信息计算。
5.根据权利要求4所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述URL参数值的长度异常值,利用统计学中的切比雪夫不等式以及长度的均值与方差可以计算出长度的异常值P,其中X为URL参数值的长度,μ为长度均值,σ2为长度方差,k表示标准差个数。
6.根据权利要求4所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述字符分布利用统计学中的卡方检验计算字符分布的异常值α具体包括:对于字符串{s1,s2,…,sn},CD(s)i表示CD(s)中的第i个概率值,ICDi表示ICD中的第i个概率值,则其中i=1,2,…,n,即ICD中的第i个概率值是样本集中所有样本分布的第i个概率值的均值;
7.根据权利要求4所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述枚举类型,计算属性值的输入属于枚举类型异常的情况,所述定义函数f和g,函数f是线性递增函数,g(x)表示样本函数,当依次输入训练样本时,倘若遇到新样本则g加1,否则g减1。
f(x)=x
当所有样本都学习结束后得到的函数f和g的相关系数ρ可由下面的公式定义:
其中Var(f)和Var(g)分别是函数f和g的方差,Co var(f,g)是函数f和g的协方差。
8.根据权利要求4所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述关键词抽取互信息体现了字符串内部结合方式是否紧密,其计算公式如下:其中,P(s1s2s3)表示字符串s1s2s3出现的概率,P(s1s2)、P(s2s3)含义相仿。
9.根据权利要求4所述的基于大数据的网络流量异常实时监测系统,其特征在于,还需要计算字符串邻字的左右邻字丰富程度,,其左右邻字的丰富程度可以使用信息熵获得其中P(i)表示该字符串的邻字i出现的概率。
10.根据权利要求1-9之一所述的基于大数据的网络流量异常实时监测系统,其特征在于,所述及时响应模块(704)中对用户的及时响应,具体方法如下:实时数据训练得到分类标签后,判断该URL是否异常,在监测到异常访问时,针对个人用户,防御插件弹出警告提示,建议不再继续访问;针对服务器管理员,系统提示服务器受到攻击,攻击地址显示在首页地图上,近期遭受的攻击形式及其次数以折线图形式显示在界面上。