欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020116315134
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于自信息损失补偿的机器生成文本检测方法,其特征在于,所述方法包括:步骤1:确定细分领域,基于确定的细分领域从网络上爬取文本数据构成数据集;

步骤2:对采集到的数据集进行清洗,具体的,剔除掉HTML标签和emoji表情干扰字符,数据清洗后的样本为正样本,根据正样本采用数据模拟策略生成的机器生成文本为负样本;

步骤3:对处理后的数据集进行分词,获得文本词序列;

步骤4:填充文本,设定填充padding大小,将所述文本词序列处理成列固定长度为padding的序列;

步骤5:设定batch大小,将步骤4处理后的所述文本词序列划分为多个batch大小的批数据;

步骤6:使用词嵌入工具获得每一批文本词序列的初始词向量表示矩阵{w1,w2,w3……wn},基于所述初始词向量表示矩阵对训练集中的文本数据进行训练;

步骤7:编码文本双向信息,将步骤6构造的所述初始词向量矩阵{w1,w2,w3……wn}输入基于RNN的双向时序模型中,获取各个时间步的双向输出向量,所述双向输出向量包括后向输出向量 和前向输出向量

步骤8:拼接双向输出向量,基于所述双向输出向量构造特征矩阵 表示拼接,拼接是指前一个向量的尾部和后一个向量的首部直接连到一起,数学表达式如下:步骤9:编码逻辑特征并捕获最大特征,设置不同大小的卷积核,对所述特征矩阵 做卷积,并将卷积结果经过激活后再进行最大池化,最后将每一次最大池化所得的结果拼接在一起,数学表达式如下:

ci是拼接结果的第i个元素,max pooling表示求结果中的最大值,f表示激活函数,Wc表示设定大小的卷积核,⊙表示卷积操作;

步骤10:自信息损失补偿,具体的,对步骤8的所述特征矩阵 做平均池化,再求平均,然后将结果按位加到步骤9的结果上,数学表达式如下:步骤11:对步骤10的结果进行全连接操作,最后得到一个具有两个特征的二维矩阵;

步骤12:对所述二维矩阵计算交叉熵,并求当前批数据所得交叉熵的平均值,计算公式如下:

其中,n为batch大小,yi为第i条数据的真实标签,pi为模型计算出的第i条数据的标签,L(θ)为:交叉熵的平均值;

步骤13:将步骤12的结果作为误差进行反向传播,用于检测模型的参数训练;

步骤14:设定结束条件,重复步骤7~13,直到满足结束条件,所述检测模型停止训练。