欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021106180775
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于K选择策略稀疏自注意力的文本分类方法,其特征在于,该方法是以文本分类作为下游任务,通过Spa‑k Transformer对不同文本长度的文本分类数据集进行数据清洗以及数据集划分,再利用PyTorch框架构建自注意力模型Spa‑k Transformer进行训练与测试;并采用K值选择策略,使K值索引的范围缩小;同时采用one‑hot编码和具有相对位置信息的R‑Sinusoidal位置编码优化自注意力模型Spa‑k Transformer;具体步骤如下:S1、数据集预处理;

S2、神经网络模型训练;

S3、结果预测:将待识别的测试集文本数据输入到训练好的神经网络模型中,得到待识别的测试集文本数据的预测结果,完成文本分类;

其中,自注意力模型Spa‑k Transformer的算法流程具体如下:(1)、经过预处理后的文本数据进入自注意力模型Spa‑k Transformer进行自注意力计算,自注意力模型Spa‑k Transformer中的自注意力接受以Q,K,V为元组的输入,并在点积注意力中执行,经自注意力模型Spa‑kTransformer后输出矩阵形式如下:其中,softmax函数被定义为一个概率函数,softmax函数的概率取决于xq和xk、映射Wq和Wk以及缩放 xq和xk分别为Q和K中的文本向量输入;Wq和Wk分别为Q和K中的权重;dk表示键k的数据维度;T表示数据转置;在Q、K及V中提取第i行注意力,表述为一个概率形式的平滑滤波器,公式如下:其中,概率 以及k(qi,kj)选择非对称指数核 在自注

2

意力的过程中,计算P(kj|qi)并获取输出需要花费O(L)的时间复杂度;j表示在某个数值i下的取值;qi表示第i行注意力的序列;kj和vj分别第i行注意力下第j个键k以及第j个值v;

(2)、采用KL散度来区分重要查询,促进相应查询有效点积的注意概率分布应当远离均匀的分布,其最大平均测量值的概率公式:其中,第一项为选取qi对应的key后,计算出来的最大值,其中qi为第i项的Q值;第二项为求出qi的Log‑Sum‑Exp(LSE)后的均值;Q将会变为一个新的概率性稀疏矩阵 在维度上与原来相同,包含 中前u个信息;由于Q和K的输入长度通常相同,通过控制样本采样因 使得在点积计算时,复杂度降到O(L·logL); 表示Q被更新为一个新的与维度相同的概率性稀疏矩阵; 表示概率被更新;

(3)、采用K值选择策略, 的计算首先需要对K进行抽样,在补长的序列长度范围内,根据采样因子获取K的索引;

(4)、采用one‑hot位置编码以及R‑Sinusoidal位置编码来补充位置信息;其中,one‑hot位置编码公式为:INPUT=concat(input,PEone_hot);

其中,input为输入;concat表示数据在第一维上连接,PEone‑hot表示one‑hot位置编码;

R‑Sinusoidal位置编码公式如下:

aij为数据输入;dz表示数据输入的维度;2k与2k+1表示间隔尺寸;j‑i表示相对位置信息。

2.根据权利要求1所述的基于K选择策略稀疏自注意力的文本分类方法,其特征在于,所述步骤S1中数据集预处理具体如下:S101、遍历不同数据集文件夹中的.txt记录文件,获取文件名称,并记录文件路径;

S102、编写与执行脚本命令批量运行DataPro.py打开.txt记录文件,读取原始记录数据,形成NLPCC.txt、THUCTC.txt、AG_News.txt以及IMDB.txt;

S103、提取多个基于.txt记录文件的文本数据;

S104、清洗文本数据以及填补缺失值;

S105、利用jieba分词器对中文数据集NLPCC task2及THUCTC进行分词处理;

S106、根据不同数据集将文本数据划分为训练集、测试集以及验证集。

3.根据权利要求1所述的基于K选择策略稀疏自注意力的文本分类方法,其特征在于,所述步骤S2中神经网络模型训练具体如下:S201、分别将不同的训练集数据输入到自注意力模型Spa‑k Transformer中;

S202、将输出结果转换为一维向量并连接后再输入到一个全连接层;

S203、经softmax分类器得到网络输出,得到不同数据集的分类结果;

S204、自注意力模型Spa‑k Transformer的损失函数为交叉熵函数,采用随机梯度下降法进行网络训练,得到训练好的神经网路模型后再进行测试集测试。

4.根据权利要求3所述的基于K选择策略稀疏自注意力的文本分类方法,其特征在于,所述自注意力模型Spa‑k Transformer包括编码器,每一个编码器均由位置编码层、多头注意力层和正则化层组成,且编码器的随机丢弃率为0.5,激活函数为ReLU,每一层的输出直接作为下一层的输入。

5.根据权利要求1所述的基于K选择策略稀疏自注意力的文本分类方法,其特征在于,根据采样因子获取K的索引具体如下:①、通过数据维度转换,获取K中的绝对值,公式定义为:

Ka=|(B·H·E,L)|;

其中,多头注意力的缘故,K的数据维度是4;B为Batch size;H为heads;L为单词长度;E为词嵌入;

②、建立列表KList用于存放K的最大索引值,参考前20%的K序列;

③、得到KList后,计算KList中每个索引元素的频次,并取出L一半长度的索引构建索引池;KList中第i个索引被定义为:KList_i=argmax(Ka_i);

引入K值选择策略后的自注意力能更小的范围内有效的随机选值。

6.一种基于K选择策略稀疏自注意力的文本分类系统,其特征在于,该系统包括预处理单元、训练单元和预测单元;

预处理单元用于数据集预处理;

训练单元用于神经网络模型训练;

预测单元,用于将待识别的测试集文本数据输入到训练好的神经网络模型中,得到待识别的测试集文本数据的预测结果,完成文本分类;

其中,训练单元包括输入模块、转换模块、输出模块和测试模块;

输入模块用于分别将不同的训练集数据输入到自注意力模型Spa‑kTransformer中;

转换模块用于将输出结果转换为一维向量并连接后再输入到一个全连接层;

输出模块用于经softmax分类器得到网络输出,得到不同数据集的分类结果;

测试模块用于自注意力模型Spa‑k Transformer的损失函数为交叉熵函数,采用随机梯度下降法进行网络训练,得到训练好的神经网路模型后再进行测试集测试;

自注意力模型Spa‑k Transformer的算法流程具体如下:(1)、经过预处理后的文本数据进入自注意力模型Spa‑k Transformer进行自注意力计算,自注意力模型Spa‑k Transformer中的自注意力接受以Q,K,V为元组的输入,并在点积注意力中执行,经自注意力模型Spa‑kTransformer后输出矩阵形式如下:其中,softmax函数被定义为一个概率函数,softmax函数的概率取决于xq和xk、映射Wq和Wk以及缩放 xq和xk分别为Q和K中的文本向量输入;Wq和Wk分别为Q和K中的权重;dk表示键k的数据维度;T表示数据转置;在Q、K及V中提取第i行注意力,表述为一个概率形式的平滑滤波器,公式如下:其中,概率 以及k(qi,kj)选择非对称指数核 在自注

2

意力的过程中,计算P(kj|qi)并获取输出需要花费O(L)的时间复杂度;j表示在某个数值i下的取值;qi表示第i行注意力的序列;kj和vj分别第i行注意力下第j个键k以及第j个值v;

(2)、采用KL散度来区分重要查询,促进相应查询有效点积的注意概率分布应当远离均匀的分布,其最大平均测量值的概率公式:其中,第一项为选取qi对应的key后,计算出来的最大值,其中qi为第i项的Q值;第二项为求出qi的Log‑Sum‑Exp(LSE)后的均值;Q将会变为一个新的概率性稀疏矩阵 在维度上与原来相同,包含 中前u个信息;由于Q和K的输入长度通常相同,通过控制样本采样因 使得在点积计算时,复杂度降到O(L·logL); 表示Q被更新为一个新的与维度相同的概率性稀疏矩阵; 表示概率被更新;

(3)、采用K值选择策略, 的计算首先需要对K进行抽样,在补长的序列长度范围内,根据采样因子获取K的索引;

(4)、采用one‑hot位置编码以及R‑Sinusoidal位置编码来补充位置信息;其中,one‑hot位置编码公式为:INPUT=concat(input,PEone‑hot);

其中,input为输入;concat表示数据在第一维上连接,PEone‑hot表示one‑hot位置编码;

R‑Sinusoidal位置编码公式如下:

aij为数据输入;dz表示数据输入的维度;2k与2k+1表示间隔尺寸;j‑i表示相对位置信息。

7.根据权利要求6所述的基于K选择策略稀疏自注意力的文本分类系统,其特征在于,所述预处理单元包括,获取模块,用于遍历不同数据集文件夹中的.txt记录文件,获取文件名称,并记录文件路径;

读取模块,用于编写与执行脚本命令批量运行DataPro.py打开.txt记录文件,读取原始记录数据,形成NLPCC.txt、THUCTC.txt、AG_News.txt以及IMDB.txt;

提取模块,用于提取多个基于.txt记录文件的文本数据;

清洗模块,用于清洗文本数据以及填补缺失值;

分词模块,用于利用jieba分词器对中文数据集NLPCC task2及THUCTC进行分词处理;

划分模块,用于根据不同数据集将文本数据划分为训练集、测试集以及验证集。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至5中任一项所述的基于K选择策略稀疏自注意力的文本分类方法。