1.一种基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:包括以下步骤:
S1:生成全量词集与强相关词集,并构建BIE位置词列表;
S2:利用字向量的原始表征构建位置无关性词向量;
S3:基于词频加权平均池化算法缩合词集中的词向量表征;
S4:将字的BIE位置词向量加权并与原始字向量拼接,生成包含词汇位置信息的字向量。
2.根据权利要求1所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:所述步骤S1具体包括以下步骤:S11:假设存在中文文本数据集D={S,Y},其中S={s1,s2,…,sn}为中文文本集合,Y为标签集;对每条文本si∈S,根据全词典匹配算法与TF‑IDF算法,生成全量词集Wa={wa1,wa2,…,wan}和强相关词集Wb={wb1,wb2,…,wbn};其中w={[k1,st1,ed1],[k2,st2,ed2],…,[km,stm,edm]},表示词汇w匹配到文本ki的sti到edi位置;
S12:根据字在词中的位置,利用词集Wa,Wb,对数据集D中的文本s={c1,c2,...,cm},ci为文本中的字,分别生成文本s的BIE位置词列表集 和其中bieai=[Bai,Iai,Eai],Bai,Iai,Eai分别表示在文本s中以第i个字ci为开头、内部、结尾生成的词集,表示为:同理,生成
3.根据权利要求2所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:步骤S11中,生成词集Wa与Wb的规则是:使用全词典匹配算法得到文本中所有隐含词汇,作为全量词集Wa;利用TF‑IDF算法对训练文本中的词按重要性排序,保留50%的词汇作为强相关词典,并与文本分词结果匹配,生成强相关词集Wb。
4.根据权利要求1所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:步骤S2具体包括:
c
S21:使用预训练的字符embedding表e 生成数据集中文本s的字向量的原始表征S22:根据全量词集Wa和强相关词集Wb中词与字的对应关系,生成文本s中每个词w的位置无相关性词向量:
位置无关性体现在针对不同的文本s,s′,相同词的词向量相同,避免相同实体受不同预训练数据集语境的干扰,引入额外误差。
5.根据权利要求1所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:步骤S3具体包括:
对数据集中文本s中字ci对应的BIE位置词列表采用词频加权平均池化算法缩合词集中的词向量表征;使用词频作为重要性权重,分别生成全量BIE位置词向量和强相关BIE位置词向量 对于词集B其缩合公式为:
z(w)表示词w在数据集文本中出现的频次。
6.根据权利要求1所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:步骤S4具体包括以下步骤:S41:对数据集中文本s中字ci,对缩合后的全量BIE位置词向量与强相关BIE位置词向量按权值T进行融合;权重T用来降低全量词集中的冗余词的重要性;得到融合后的BIE位置词s
向量e(B,I,E):
s
S42:对数据集中文本s中字ci,将融合后的BIE位置词向量e (B,I,E)与原始字向量拼c
接,得到最终包含词汇信息的字向量x:c c s
x=[x;e(B,I,E)]。
7.根据权利要求6所述的基于BIE位置词列表的中文文本数据字向量表征方法,其特征在于:强相关词集根据TF‑IDF算法得来,即字ci的强相关BIE位置词列表中仅有一维可能有值,且长度为1,则设定权值