1.一种文本特征向量的确定方法,其特征在于,所述确定方法包括:获取训练文本集,所述训练文本集包括若干训练文本;
采用卡方检验方法提取每个所述训练文本的文本特征;
根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;
构建包括若干多维水波的水波群,并初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;
获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;根据所述多维水波的位置确定所述预选文本特征集的特征向量;根据所述特征向量对所述测试文本集的各个测试文本进行分类;根据公式Fitness=M′/M计算多维水波的适应度值,其中,Fitness表示适应度值,M'表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数,并选出适应度值最大的多维水波作为当前最优水波;
判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;
若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;
若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;
判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;
若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;
计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;
判断所述迭代次数是否小于迭代阈值,获得第三判断结果;
若所述第三判断结果表示所述迭代次数小于迭代阈值,则返回所述步骤“判断所述当前最优水波的适应度值是否大于或者等于适应度阈值”;
若所述第三判断结果表示所述迭代次数大于或者等于迭代阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量。
2.根据权利要求1所述的确定方法,其特征在于,所述根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数,具体包括:若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则判断所述传播处理后的多维水波的适应度值是否大于所述当前最优水波的适应度值,得到第四判断结果;
若所述第四判断结果表示所述传播处理后的多维水波的适应度值小于或者等于所述当前最优水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
若所述第四判断结果表示所述传播处理后的多维水波的适应度值大于所述当前最优水波的适应度值,则对传播处理后的多维水波进行碎浪处理,获得多个子波;
计算每个所述子波的适应度值,选出适应度值最大的子波作为最优子波;
判断所述最优子波的适应度值是否大于所述传播处理后的多维水波的适应度值,获得第五判断结果;
若所述第五判断结果表示所述最优子波的适应度值大于所述传播处理后的多维水波的适应度值,则用所述最优子波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
若所述第五判断结果表示所述最优子波的适应度值小于或者等于所述传播处理后的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
根据所述第二判断结果、第四判断结果以及第五判断结果更新所述水波群,并更新所述水波群的迭代次数。
3.根据权利要求2所述的确定方法,其特征在于,保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波,具体包括:将所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波的波高减1,得到波高减1后的多维水波;
判断所述波高减1后的多维水波的波高是否大于0,得到第六判断结果;
若所述第六判断结果表示所述波高减1后的多维水波的波高大于0,则保留所述波高减
1后的多维水波;
若所述第六判断结果表示所述波高减1后的多维水波的波高等于0,则对所述波高减1后的多维水波进行折射处理,得到折射处理后的多维水波,并用折射处理后的多维水波代替所述波高减1后的多维水波。
4.根据权利要求1所述的确定方法,其特征在于,所述计算所述水波群中每个多维水波的适应度值,具体包括:获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;
根据所述多维水波的位置确定所述预选文本特征集的特征向量;
根据所述特征向量对所述测试文本集的各个测试文本进行分类;
根据公式:Fitness=M′/M计算多维水波的适应度值,其中,Fitness表示适应度值,M′表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数。
5.一种文本特征向量的确定系统,其特征在于,所述确定系统包括:训练集获取模块,用于获取训练文本集,所述训练文本集包括若干训练文本;
卡方检验模块,用于采用卡方检验方法提取每个所述训练文本的文本特征;
预选特征集生成模块,用于根据各个所述训练文本的文本特征生成预选文本特征集,所述预选文本特征集包括若干预选文本特征;
水波群初始化模块,用于构建包括若干多维多维水波的水波群,并随机初始化各所述多维水波的位置、波高和波长,其中,每个所述多维水波的位置对应一个所述预选文本特征集的文本特征向量;
适应度计算模块,用于计算所述水波群中每个多维水波的适应度值;获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;根据所述多维水波的位置确定所述预选文本特征集的特征向量;根据所述特征向量对所述测试文本集的各个测试文本进行分类;根据公式Fitness=M′/M计算多维水波的适应度值,其中,Fitness表示适应度值,M'表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数;并选出适应度值最大的多维水波作为当前最优水波;
第一判断模块,用于判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果;
最优特征向量确定模块,用于若所述第一判断结果表示所述当前最优水波的适应度值大于或者等于适应度阈值,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;
传播处理后适应度计算模块,用于若所述第一判断结果表示所述当前最优水波的适应度值小于适应度阈值,则对所述水波群中的各所述多维水波进行传播处理,并计算所述传播处理后的多维水波的适应度值;
第二判断模块,用于判断所述传播处理后的多维水波的适应度值是否大于所述传播处理前的多维水波的适应度值,获得第二判断结果;
第二判断结果处理模块,用于若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
更新模块,用于根据各个所述第二判断结果更新所述水波群,并更新所述水波群的迭代次数;
更新后最优多维水波确定模块,用于计算更新后的所述水波群中的每个多维水波的适应度值,并将更新后的适应度值最大的多维水波作为当前最优水波;
第三判断模块,用于判断所述迭代次数是否小于迭代阈值,获得第三判断结果;
最优特征向量确定模块,还用于若所述第三判断结果表示所述迭代次数等于迭代阈值时,则根据所述当前最优水波的位置确定所述预选文本特征集的最优文本特征向量;
第一判断模块,还用于若所述第三判断结果表示所述迭代次数小于迭代阈值时,判断所述当前最优水波的适应度值是否大于或者等于适应度阈值,获得第一判断结果。
6.根据权利要求5所述的确定系统,其特征在于,所述更新模块具体包括:保留单元,用于若所述第二判断结果表示传播处理后的多维水波的适应度值小于或者等于传播处理前的多维水波的适应度值,则保留所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
第四判断单元,用于若所述第二判断结果表示传播处理后的多维水波的适应度值大于传播处理前的多维水波的适应度值,则判断所述传播处理后的多维水波的适应度值是否大于所述当前最优水波的适应度值,得到第四判断结果;
第一代替单元,用于若所述第四判断结果表示所述传播处理后的多维水波的适应度值小于或者等于所述当前最优水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
碎浪处理单元,用于若所述第四判断结果表示所述传播处理后的多维水波的适应度值大于所述当前最优水波的适应度值,则对传播处理后的多维水波进行碎浪处理,获得多个子波;
最优子波选择单元,用于计算每个所述子波的适应度值,选出适应度值最大的子波作为最优子波;
第五判断单元,用于判断所述最优子波的适应度值是否大于所述传播处理后的多维水波的适应度值,获得第五判断结果;
第二代替单元,用于若所述第五判断结果表示所述最优子波的适应度值大于所述传播处理后的多维水波的适应度值,则用所述最优子波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
第三代替单元,用于若所述第五判断结果表示所述最优子波的适应度值小于或者等于所述传播处理后的多维水波的适应度值,则用传播处理后的多维水波代替所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波;
更新单元,用于根据所述第二判断结果、第四判断结果以及第五判断结果更新所述水波群,并更新所述水波群的迭代次数。
7.根据权利要求6所述的确定系统,其特征在于,所述保留单元具体包括:波高减1子单元,用于将所述水波群中与所述传播处理后的多维水波对应的传播处理前的多维水波的波高减1,得到波高减1后的多维水波;
第六判断子单元,用于判断所述波高减1后的多维水波的波高是否大于0,得到第六判断结果;
保留子单元,用于若所述第六判断结果表示所述波高减1后的多维水波的波高大于0,则保留所述波高减1后的多维水波;
折射子单元,用于若所述第六判断结果表示所述波高减1后的多维水波的波高等于0,则对所述波高减1后的多维水波进行折射处理,得到折射处理后的多维水波,并用折射处理后的多维水波代替所述波高减1后的多维水波。
8.根据权利要求5所述的确定系统,其特征在于,所述适应度计算模块具体包括:测试集获取单元,用于获取测试文本集,所述测试文本集包括若干分类类型已知的测试文本;
预选文本特征向量确定单元,根据所述多维水波的位置确定所述预选文本特征集的特征向量;
测试文本分类单元,用于根据所述特征向量对所述测试文本集的各个测试文本进行分类;
适应度计算单元,用于根据公式:Fitness=M′/M计算多维水波的适应度值,其中,Fitness表示适应度值,M′表示分类正确的测试文本的数量,M表示测试文本集包括的测试文本的总数。
9.一种文本分类方法,所述文本分类方法包括:
获取训练文本集的最优文本特征向量,所述训练文本集的最优文本特征向量为根据权利要求1-4任一项所述的确定方法确定的文本特征向量;
根据所述最优文本特征向量训练分类器,获得训练好的分类器;
获取待分类文本的待测文本特征向量,所述待测文本特征向量为根据权利要求1-4任一项所述的确定方法确定的文本特征向量;
将所述待测文本特征向量输入所述训练好的分类器,所述训练好的分类器完成对待分类文本的分类。
10.一种文本分类系统,所述文本分类系统包括:
最优文本特征向量获取模块,用于获取训练文本集的最优文本特征向量,所述训练文本集的最优文本特征向量为根据权利要求1-4任一项所述的确定方法确定的文本特征向量;
训练模块,用于根据所述最优文本特征向量训练分类器,获得训练好的分类器;
待测文本特征向量获取模块,用于获取待分类文本的待测文本特征向量,所述待测文本特征向量为根据权利要求1-4任一项所述的确定方法确定的文本特征向量;
分类模块,用于将所述待测文本特征向量输入所述训练好的分类器,所述训练好的分类器对所述待分类文本进行分类。