1.一种融合位置信息的三元组抽取方法,其特征在于,包括:使用编码器获取方面词和观点词的隐藏状态向量;
通过自注意力机制加强方面词和观点词间的联系,得到方面词的隐藏状态向量表示和观点词的隐藏状态向量表示;
对方面词和观点词进行特征剥离,获取方面词和观点词的特征表示;
通过方面标记操作得到方面词标记分布序列,通过观点标记操作得到观点词标记分布序列,通过位置偏移操作得到方面位置偏移和观点位置偏移,通过词级情感依赖分析得到情感极性;
使用启发式规则对所述方面词标记分布序列、观点词标记分布序列和情感极性进行三元组解码,得到包括方面词位置信息、观点词位置信息和情感极性的三元组输出;
所述通过方面标记操作得到方面词标记分布序列,通过观点标记操作得到观点词标记(ap)分布序列,具体为:使用BIO标注方案对所述方面词的特征表示ri 进行序列标记得到包含(ap)B、I、O的方面词标记分布序列Pi ,使用BIO标注方案对所述观点词的特征表示 进行序列标记得到包含B、I、O的观点词标记分布序列 序列标记的同时记录方面词标记信息和观点词标记信息;
所述通过位置偏移操作得到方面位置偏移和观点位置偏移,具体为:根据方面词标记(ap)分布序列Pi 和观点词标记分布序列 确定方面词和观点词的位置序列,根据方面词相对于观点词的位置得到方面位置偏移 根据观点词相对于方面词的位置得到观点位置偏移所述通过词级情感依赖分析得到情感极性,具体为:
(ap)
将方面位置偏移 拼接到方面词的特征表示ri ′中得到 将观点位置偏移拼接到观点词的特征表示 中得到构建初始化biaffine评分器,使用所述 和 计算每个词对的情感倾向性得分为:(k)
其中, 表示单词对(wi,wj)的第k个情感依赖关系类型得分,W 是产生第k个分数(k)的可训练权重,b 是产生第k个分数的偏置;
构建方面标记的损失函数:
其中, 表示方面词标记分布序列的第i个位置上第k种标记出现的概率, 表示方面词标记分布序列的第i个位置上第k种标记出现的概率的真值分布,k是每个位置上的类别数,S表示句子长度;
构建观点标记的损失函数:
其中, 表示观点词标记分布序列的第i个位置上第k种标记出现的概率, 表示观点词标记分布序列的第i个位置上第k种标记出现的概率的真值分布,k是每个位置上的类别数;
构建情感依赖分析的损失函数:
其中, 表示单词对(wi,wj)的第k个情感依赖关系类型的真实得分,si,j,k表示归一化后的根据所述方面标记的损失函数、观点标记的损失函数和情感依赖分析的损失函数构建biaffine评分器联合训练的损失函数:其中,α是一个平衡项,用来平衡标记学习和情感依赖性解析;θ表示可训练参数,γ是θ的L2正则化控制项;
对biaffine评分器进行训练直到联合训练的损失函数收敛,将所述方面词标记信息和观点词标记信息送入评分器评分,得到方面词和观点词间的情感倾向性得分 根据情感倾向性得分 计算单词对(wi,wj)的所有依赖类型的概率si,j:将四个依赖类型的概率中的最大值对应的依赖类型作为当前的情感极性。
2.根据权利要求1所述的融合位置信息的三元组抽取方法,其特征在于:所述使用编码器获取方面词和观点词的隐藏状态向量,具体为通过双向长短时记忆网络获取方面词隐藏状态向量 和观点词隐藏状态向量
3.根据权利要求2所述的融合位置信息的三元组抽取方法,其特征在于:所述通过自注意力机制加强方面词和观点词间的联系,得到方面词的隐藏状态向量表示和观点词的隐藏状态向量表示,具体为:针对单词对(wi,wj),其中wi表示方面词、wj表示观点词,使用自注意力机制加强wi和wj之间的连接:其中,uij表示单词对wi、wj之间关联性权重向量,v表示单位向量;Wa1和Wa2是权重矩阵,ba是偏置;
计算单词对wi、wj之间关联性权重归一化向量αij:其中,exp()表示以自然常数e为底的指数函数,n表示单词对(wi,wj)的个数;
计算方面词的隐藏状态向量表示 和观点词的隐藏状态向量表示其中,S表示句子长度,ap表示方面词,op表示观点词。
4.根据权利要求1所述的融合位置信息的三元组抽取方法,其特征在于:所述对方面词和观点词进行特征剥离,获取方面词和观点词的特征表示,具体为:使用线性降维Linear函数对方面词和观点词进行线性降维,使用非线性激活函数ReLU对方面词和观点词进行特征剥离,在可学习的权重和偏置设置不同时得到两组方面词的特(ap)征表示和观点词的特征表示:一组为方面词的特征表示ri 、观点词的特征表示 另一(ap)′组为方面词的特征表示ri 、观点词的特征表示
5.根据权利要求1所述的融合位置信息的三元组抽取方法,其特征在于:所述使用启发式规则对所述方面词标记分布序列、观点词标记分布序列和情感极性进行三元组解码,得到包括方面词位置信息、观点词位置信息和情感极性的三元组输出,具体为:(ap)
使用stop‑on‑non‑I算法标准对所述方面词标记分布序列Pi 进行逆序遍历找到第一ap个I或B的位置P1 ,使用stop‑on‑non‑I算法标准对所述观点词标记分布序列 进行逆op序遍历找到第一个I或B的位置P1 ;
(ap) ap
继续逆序遍历方面词标记分布序列Pi 直到找到第一个B的位置P2 ,继续逆序遍历观op点词标记分布序列 直到找到第一个B的位置P2 ,得到所述包括方面词位置信息、观点ap ap op op词位置信息和情感极性的三元组输出为[(P2 ,P1 ),(P2 ,P1 ),情感极性]。
6.一种融合位置信息的三元组抽取系统,其特征在于:包括视图层、控制层和业务处理层,所述视图层使用VUE框架进行用户页面制作;
所述控制层通过MVC框架实现,所述控制层与所述视图层之间进行信息交互;
所述业务处理层与所述控制层进行信息交互,所述业务处理层使用如权利要求1‑5任一项所述的融合位置信息的三元组抽取方法得到包括方面词位置信息、观点词位置信息和情感极性的三元组输出,所述控制层将三元组输出通过视图层显示给用户。
7.根据权利要求6所述的融合位置信息的三元组抽取系统,其特征在于:所述业务处理层包括测试模块、训练模块和数据集更新模块,所述测试模块包括例句输入和结果显示,用户在所述例句输入中输入的例句会进行三元组抽取,得到的三元组输出在所述结果显示中显示;
用户通过使用所述训练模块设置模型训练的参数;
所述数据集更新模块用于收集用户输入的例句,扩大样本集。