1.融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:包括三个部分:特征词‑标签匹配模块、图嵌入三元损失训练策略模块、上下文特征提取和交互模块;按照以下顺序进行:特征词‑标签匹配模块连接图嵌入三元损失训练策略模块,图嵌入三元损失训练策略模块连接上下文特征提取和交互模块;
所述特征词‑标签匹配模块用于选取文本,提取特征词,使用词频‑逆文本频率技术在文本中提取特征词;
所述特征词‑标签匹配模块用于构建标签‑特征词图;定义标签表示需要进行分类的文本类别,使用词频‑逆文本频率技术统计每一个文本类别的特征词,对排名前100的特征词与对应标签的文本使用预训练语言模型RoBERTa进行向量化,向量化后的标签为标签节点,向量化后的特征词为特征词节点,将向量化后的特征词与对应标签构建标签‑特征词图;
图嵌入三元损失训练策略模块将构建标签‑特征词图送入到图注意力网络中进行图学习;所述图学习具体为:通过三元损失函数对标签嵌入向量进行区分,通过选定其中的一个标签嵌入向量作为锚点,计算每个标签嵌入向量与锚点的距离,即通过向量之间的距离对与锚点不同的标签嵌入向量进行区分;三元损失函数见公式(1);
(1)
其中, 表示三元损失函数, 表示三元损失函数的最大值,d表示二个向量的距离,c表示选定一个标签嵌入向量,p表示和c相同的选定标签嵌入向量,n表示和c不同的选定标签嵌入向量,margin为一个常数;
通过图注意力网络学习得到标签嵌入向量;
所述上下文特征提取和交互模块将所需要进行分类的文本输入到预训练语言模型RoBERTa中,通过预训练语言模型RoBERTa后的输出为上下文编码向量;上下文编码向量与标签嵌入向量进行交互,输入到一个注意力机制后,得到一个注意力机制输出的得分所构成的向量,将注意力机制输出的得分与上下文编码向量拼接,得出最后的特征表示;将最后的特征表示使用 函数进行分类,分类损失函数使用交叉熵损失函数 ,总损失函数表示为 ,为三元损失的控制参数。
2.根据权利要求1所述的融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:使用词频‑逆文本频率技术在文本中提取特征词,具体见公式(2): (2)
其中,TF‑IDF表示词频‑逆文本频率,Ni,j表示xi在dj中出现的次数,xi表示一个句子中的第i个词,dj表示文本中第j个句子, 表示在句子j中的任意词k出现的次数总和,代表整个文本中句子的总数,j表示句子;
词频‑逆文本频率技术计算得到的值越大表示该特征词与其标签越相似,将该特征词保留在这一标签类别下,对应保存为 , 表示在第m个标签类别下的特征词序列,h表示为每一标签下特征词的个数, m表示第m个标签,M表示标签的总数;
将标签序列加入到对应的特征词序列Sm中,形成标签与特征词的融合序列;将融合序列使用预训练语言模型RoBERTa编码成句子向量形式um,见公式(3):
(3)
其中,um表示句子向量形式, ,即m个标签融合序列的特征向量,
RoBERTa表示预训练语言模型。
3.根据权利要求2所述的融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:将构建标签‑特征词图送入到图注意力网络中进行图学习,其特征词节点的输出见公式(4): (4)
其中, 为第 个节点的输出向量,代表激活函数, 是节点 的相邻节点的集合,b表示 其中的一个节点,b是 的邻居节点; 表示节点b与目标节点 经过softmax函数归一化后的权重; 是节点向量 的权重矩阵, 表示 b个节点的第m个标签融合序列的特征向量;
公式(4)中的节点b与目标节点 经过softmax函数归一化后的权重 通过注意力机制计算后得到公式(5): (5)
其中,为注意力机制函数, 分别表示 个节点的第m个标签融合序列的特征向量、b个节点的第m个标签融合序列的特征向量和 个节点的第m个标签融合序列的特征向量;为节点 的相邻节点的集合 中的任意一个节点, 表示所有与 相邻节点 注意力得分的总和。
4.根据权利要求3所述的融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:图注意力网络学习得到标签嵌入向量,见公式(6):
(6)
其中, 为第 个节点的输出向量,表示每个注意力机制头数的输出向量进行拼接,为激活函数,f表示注意力机制头数,F表示总的注意力机制头数, , 表示第f个注意力机制头数的节点b与目标节点 经过softmax函数归一化后的权重, 是对特征向量第f个注意力机制头数的权重矩阵。
5.根据权利要求4所述的融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:生成一个新的向量,过程如公式(7)、公式(8)和公式(9): (7)
(8)
(9)
其中,表示点积后的结果,q表示两个向量的点积,两个向量分别为第 个标签嵌入向量 与第 个上下文编码向量 ,为标签嵌入向量 和上下文编码向量 经过softmax归一化后的权重,Q为向量总个数, 为第 个注意力交互后的向量。
6.根据权利要求5所述的融合三元损失和标签嵌入的图注意力网络文本分类模型,其特征是:最后的特征表示,即公式(10): (10)
其中,为最后的特征表示, 为拼接, 分别为注意力交互后的向量和上下文编码向量。