1.一种基于神经网络的知识图谱补全方法,其特征在于,定义知识图谱K={E,R,T},E代表实体,R代表实体之间的关系集合,T=(s,r,o)为三元组,T代表知识图谱K中若干正确的事实,s∈E表示主语,o∈E表示宾语,r∈R表示主语和宾语之间的关系,该方法包括以下步骤:
S1、在嵌入层将知识图谱K中的三元组(s,r,o)转换为句子[s r o],利用向量表示技术把句子[s r o]转换为k维稠密向量表示形式xi=[vs,vr,vo],其中xi表示由知识图谱K中第i个三元组转换而成的句子特征向量,vs,vr,vo分别表示s,r,o的k维向量;
S2、在循环层利用BiLSTM网络从输入特征向量xi中学习句子的长期依赖性,得到循环层特征向量hRNN;
S3、在卷积层利用卷积神经网络从特征向量hRNN中学习局部结构信息,得到卷积层特征向量hCNN;
S4、在全连接层将卷积层特征向量hCNN转化为每一个三元组(s,r,o)的得分。
2.根据权利要求1所述基于神经网络的知识图谱补全方法,其特征在于,步骤S2的具体方法为:
S21、基于LSTM网络的循环神经网络利用输入门it、遗忘门ft和输出门ot控制信息流,各门均通过使用当前输入xi,前一步骤产生的状态hi‑1和当前状态输出后产生的状态ci‑1来确定是否接受输入和忘记之前存储的信息,t代表第t个序列片段;LSTM网络由五部分组成,计算方式分别如下:
it=σ(wxixt+whiht‑1+wcict‑1+bi) (1)ft=σ(wxfxt+whfht‑1+wcfct‑1+bf) (2)ot=σ(wxoxt+whoht‑1+wcoct‑1+bo) (3)ct=ittanh(wxcxt+whcht‑1+wccct‑1+bc)+ftct‑1 (4)ht=ottanh(ct) (5)其中,式(1)、(2)、(3)中σ(·)代表sigmoid函数;
式(1)中wxi,whi,wci为输入门it中需要学习的权重矩阵,bi表示输入门it中的偏置向量;
式(2)中wxf,whf,wcf为遗忘门ft中需要学习的权重矩阵,bf表示遗忘门ft中的偏置向量;
式(3)中wxo,who,wco为输出门ot中需要学习的权重矩阵,bo表示输出门ot中的偏置向量;
式(4)中ct为当前时刻的候选状态,wxc,whc,wcc为ct中需要学习的权重矩阵,bc表示ct中的偏置向量;
式(5)中,通过将非线性变换后的ct与输出门ot进行点积操作,得到当前时刻的隐藏状态输出ht;
S22、LSTM网络按时间顺序处理特征向量xi,忽略了未来的文本信息,而BiLSTM网络通过引入循环层来扩展LSTM网络;BiLSTM网络包含用于左和右序列上下文特征学习的两个子LSTM网络,该网络通过不同数量隐藏单元β的前向传播和后向传播,获得前向隐藏状态 和后向隐藏状态 最后输出循环层特征向量hRNN:其中 是LSTM网络学习在不同方向特征向量xi后得到的隐藏状态,计算过程如S21,:表示连接操作,输出循环层特征向量hRNN包含了输入句子[s r o]的长期依赖性。
3.根据权利要求2所述基于神经网络的知识图谱补全方法,其特征在于,步骤S3的具体方法为:
卷积层在循环层特征向量hRNN上应用卷积从句子的每个部分获得局部结构信息;hRNN被送到该层,其中形状为N×3(N∈{1,2,3,...})的不同过滤器γ通过在hRNN的每一行上连续操作来生成不同的特征映射,在此层中,特征映射hCNN根据如下公式生成:hCNN=ReLU(γ·hRNN+b) (8)其中b∈R是偏置项,·是点积;卷积层特征向量hCNN学习了输入句子[s r o]的长期依赖性和局部结构信息。
4.根据权利要求3所述基于神经网络的知识图谱补全方法,其特征在于,步骤S4的具体方法为:
在全连接层将卷积层特征向量hCNN连接成单个向量,然后通过与权重向量点积,得到句子[s r o]的得分,Sentence‑RCNN得分函数f[s r o]定义如下:f[s r o]=concat(σ(γ*(β#[vs,vr,vo])))·w (9)其中·表示点积,#表示循环运算层,*表示卷积运算层;
非线性逻辑sigmoid函数用于获得句子是否为正确的概率预测:p=Sigmoid(f[s r o])p∈[0,1] (10)对于训练模型参数,在分数上采用逻辑sigmoid函数,Sentence‑RCNN使用自适应矩算法来训练三元组,其损失函数L计算公式如下:其中,第一项是经验风险,第二项是正则化项,L2是正则化项,即损失函数L的第二项,λ是L2正则化的超参数,用于调整经验风险和正则化之间的关系以平衡经验风险与模型复杂度;w是L2正则化的权重向量;l(s,r,o)为样例的标签,正例则为1,负例则为‑1;K′是标签为‑1的负例的集合,负例是通过破坏K中的正例而产生的。
5.根据权利要求4所述基于神经网络的知识图谱补全方法,其特征在于,负例的构造方法具体包括以下步骤:
S411、采用不同的概率替换主语或者宾语以获得负例,对于1‑N、N‑1和N‑N的关系,通过提供更多机会来取代连接实体少的一侧;
S412、在所有具有关系r的三元组中,统计两个数据:1)所有连接关系r的实体,表示为EC;2)未连接到关系r的候选实体,表示为ENC=E‑EC;
S413、知识图谱中的三元组(s,r,o)为正例,而训练过程中所需负例三元组(s′,r,o′)由正例(s,r,o)构成,从(s,r,o)中关系r的ENC中选择被破坏的实体s′或0′,继而减少了产生错误负例的可能性。
6.根据权利要求5所述基于神经网络的知识图谱补全方法,其特征在于,步骤S411的具体方法为:
在关系r的所有三元组中,得到两个统计:1)每个主语连接的平均宾语数量,表示为ts;
2)每个宾语连接的平均主语数量,表示为to;
然后根据伯努利分布参数 对每个正例的关系r进行采样,以概率 替换三元组的主语,以概率 替换三元组的宾语。