1.一种字符串分类方法,其特征在于,包括:获取待分类字符串;
将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量;
将所述特征向量输入分类器中,得到所述待分类字符串的分类结果;
其中,将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量,包括:
将所述待分类字符串输入所述特征提取器中;
所述特征提取器将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择M个字符串子段;其中,N为正整数,M为不大于N的正整数;
所述特征提取器将所述M个字符串子段输入训练完成的C2V模型中,生成所述M个字符串子段中每一个字符串子段对应的特征矩阵,所述特征矩阵的每一行对应所述每一个字符串子段中的一个字符的n维特征向量,每一列对应所述n维特征向量的每一个维度,其中,n为正整数;
所述特征提取器利用统计学方法计算所述特征矩阵每一列的统计特征值,得到所述每一个字符串子段对应的统计特征向量,并根据所有的所述统计特征向量生成所述待分类字符串对应的特征向量;
其中,将所述M个字符串子段输入训练完成的C2V模型中之前,还包括:将训练集中的所有字符串切割为字符,并将所有切割完成的字符加入字符语料库中;
利用Word2vec和所述字符语料库中的所有字符训练Character Embedding模型得到训练完成的C2V模型。
2.根据权利要求1所述字符串分类方法,其特征在于,所述统计学方法至少包括取平均值、取标准差、取中位数中的任一项。
3.根据权利要求1所述字符串分类方法,其特征在于,所述根据所有的所述统计特征向量生成所述待分类字符串对应的特征向量,包括:将所有的所述统计特征向量串联为所述待分类字符串对应的特征向量。
4.根据权利要求1所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为钓鱼网站的URL地址,且N为5,则将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,包括:
将所述URL地址分为网络协议、子域名字段、域名字段、域名后缀和URL路径五个字符串子段。
5.根据权利要求1所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为恶意请求或网站后门行为的网络请求,且M为2,则将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择M个字符串子段,包括:将所述网络请求按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择请求路径和请求参数两个字符串子段,其中,N为不小于2的整数。
6.根据权利要求1所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为恶意请求或网站后门行为的网络请求,则将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量,包括:将所述网络请求输入训练完成的C2V模型中,生成所述网络请求对应的特征矩阵。
7.根据权利要求1所述字符串分类方法,其特征在于,若待分类字符串为待分类文档,则将所述待分类字符串输入特征提取器中,包括:将所述待分类文档的所有字符输入所述特征提取器中。
8.根据权利要求7所述字符串分类方法,其特征在于,将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,包括:将所述所有字符以空格和/或标点符号划分为N个字符串子段。
9.根据权利要求1‑8任一项所述字符串分类方法,其特征在于,所述分类器为通过机器学习算法训练得到的分类器。
10.根据权利要求9所述字符串分类方法,其特征在于,所述机器学习算法至少包括XGBoost算法、GBDT算法或神经网络算法中的任一项。
11.一种字符串分类系统,其特征在于,包括:获取模块,用于获取待分类字符串;
提取模块,用于将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量;
分类模块,用于将所述特征向量输入分类器中,得到所述待分类字符串的分类结果;
其中,所述提取模块具体包括:
输入单元,用于将所述待分类字符串输入所述特征提取器中;
划分单元,用于将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择M个字符串子段;其中,N为正整数,M为不大于N的正整数;
特征单元,用于将所述M个字符串子段输入训练完成的C2V模型中,生成所述M个字符串子段中每一个字符串子段对应的特征矩阵,所述特征矩阵的每一行对应所述每一个字符串子段中的一个字符的n维特征向量,每一列对应所述n维特征向量的每一个维度,其中,n为正整数;
生成单元,用于利用统计学方法计算所述特征矩阵每一列的统计特征值,得到所述每一个字符串子段对应的统计特征向量,并根据所有的所述统计特征向量生成所述待分类字符串对应的特征向量;
其中,所述提取模块还包括:
切割单元,用于将训练集中的所有字符串切割为字符,并将所有切割完成的字符加入字符语料库中;
训练单元,用于利用Word2vec和所述字符语料库中的所有字符训练Character Embedding模型得到训练完成的C2V模型。
12.一种字符串分类设备,其特征在于,包括:存储器,用于存储字符串分类程序;
处理器,用于执行所述字符串分类程序时实现如权利要求1至10任一项所述字符串分类方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有字符串分类程序,所述字符串分类程序被处理器执行时实现如权利要求1至10任一项所述字符串分类方法。