1.一种基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于,包括以下步骤:
S1:获取大样本事件的文本数据,将大样本事件的谣言检测任务建模为二分类机器学习任务,对大样本事件文本数据进行文本特征编码得到大样本事件文本数据的文本字符级特征向量,将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练,得到通用预测模型;
S2:获取少样本事件的文本数据,将少样本事件的谣言检测任务建模为二分类机器学习任务,将已被官方关注的话题下被标注为谣言和未被标注为谣言的少样本事件的文本数据作为有标注少样本,将未被官方关注的话题的少样本事件的文本数据作为无标注少样本;
S3:对有标注少样本进行文本特征编码得到有标注少样本的文本字符级特征向量,将有标注少样本的文本字符级特征向量输入通用预测模型中进行任务适应,更新通用预测模型的参数得到少样本谣言预测模型;
S4:对无标注少样本进行文本特征编码得到无标注少样本的文本字符级特征向量,将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测,得到预测结果。
2.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述文本特征编码的过程为:按字符粒度对输入文本进行分割和嵌入,通过预训练BERT模型获取输入文本的文本字符级特征向量。
3.根据权利要求2所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述文本字符级特征向量中还加入了随机遮挡层,用于避免过拟合现象。
4.根据权利要求3所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述随机遮挡层随机选中遮挡概率为r的字符,并置选中字符的编码向量所有维度为0。
5.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述获取大样本事件的文本数据和获取少样本事件的文本数据的方法,具体为:通过事件关键词爬取官方判定为不实信息的言论数据,根据事件关键词爬取未被标注为不实信息的相关言论数据,对爬取到的所有言论数据进行预处理得到输入文本。
6.根据权利要求5所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述对爬取到的所有言论数据进行预处理得到输入文本,预处理的方法为:按照分词、停用词、数据清理的步骤进行数据预处理,所述数据清理为使用汉明距离过滤重复性文本,用于避免重复的言论数据造成过拟合。
7.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练时,使用双向GRU模型提取大样本事件文本数据的文本字符级特征向量的上下文特征得到隐状态,所述上下文特征包括正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态,所述隐状态为正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态的平均值,隐状态用于后续的谣言分类。
8.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述S2中将少样本事件的谣言检测任务建模为二分类机器学习任务,具体为:将少样本事件的谣言检测任务记为N‑task、K‑shot、Q‑query;其中N‑task表示训练和测试过程中的任务数,K‑shot表示训练样本数,Q‑query表示查询样例数,N代表少样本学习的任务数、K代表每一个任务抽样的支持样例数、Q代表每一个任务抽样的查询样例数;
每次从N/2个事件中分别采样K条有标注的谣言和非谣言数据用于训练,其中标注用于标记数据是否已知是谣言,在各个事件中随机采样Q条未用于训练的无标注谣言和非谣言数据用于测试,则每个检测某事件的谣言任务均由K+Q条数据构成;每一个任务包括了多个不同的事件,每一个事件分别抽样选取多个谣言和非谣言文本用来训练模型,记为少样本支持数据集用于适应事件。
9.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述S3中更新通用预测模型的参数时,使用梯度下降法SGD学习新的谣言热点事件中的语义信息,在少样本支持数据集上更新元学习模型的参数。
10.根据权利要求1‑9任一项所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述S4中将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测时,在预测谣言概率时直接使用一层全连接层和Sigmoid函数将隐状态转化输出为谣言的概率。