1.一种基于语义分析的词向量网页入侵检测方法,其特征在于,包括如下步骤:(1)利用网络爬虫爬取若干网站的URL对应的网页源码,以Google Safe Browsing API公布的URL黑名单作为标准,分别对若干网页的网页源码进行筛选分类,经筛选分类后的网页源码作为训练集;
(2)分别提取训练集中所有网页源码的中文字符串,并分别对单个网页源码的中文字符串进行分词处理,分词处理的结果为获得该中文字符串切分组合最大概率的词序列;
(3)分别对训练集中单个网页源码的词序列中包含的词进行关键词筛选,去除停用词,构建关键词库;
(4)构建单个词序列中包含所有关键词的词向量,并通过欧几里德范数对词向量进行归一化处理;
(5)对训练集中所有归一化处理后的词向量建立有权词向量空间;
(6)有权词向量空间采用机器学习算法训练网页入侵检测模型;
(7)将待检测网页预处理后输入网页入侵检测模型,以判断待检测网页是否受到入侵。
2.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(2)中对中文字符串进行分词处理的具体过程为:首先,利用语料库生成Trie字典树,对训练集中任一网页源码提取的中文字符串根据Trie字典树生成对应的有向无环图;其次,结合有向无环图和隐马尔可夫模型对中文字符串进行分词;最后,得到该中文字符串切分组合后最大概率的词序列。
3.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(4)中构建单个词序列中包含所有关键词的词向量具体过程为:根据TF-IDF理论,TF用于统计各关键词在单个网页源码的文字符串中出现的频率,IDF用于统计包含关键词的网页源码在所有网页源码中出现的频率,反映关键词的重要性,即:则:
TF-IDF(x)=TF(x)×IDF(x) (1-8)
其中,N表示单个网页源码的文字符串中关键词的总数,N(x)代表单个网页源码的文字符串中关键词x出现的次数。
4.根据权利要求3所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(5)中得到的有权词向量空间记为S,其中,Mx为关键词库的大小,M为训练集中的网页源码的总数,s表示第s个网页源码,t表示关键词库中第t个关键词,每个行向量的元素表示单个网页源码的词序列中包含所有关键词的词向量的TF-IDF值。
5.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(5)中有权词向量空间的建立过程为:将训练集中所有网页源码分词得到的词序列构建的包含所有关键词的词向量采用集合运算统一到一个词向量空间中,结合归一化的TF-IDF计算权重进而得到有权词向量空间。
6.根据权利要求1所述的基于语义分析的词向量网页入侵检测方法,其特征在于,所述步骤(6)中采用多项式贝叶斯算法训练网页入侵检测模型。