知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于BIE位置词列表的中文文本数据字向量表征方法

￥20000

专利号： 2021114260521

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

专利领域：计算；推算；计数

更新日期：2024-11-28

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于BIE位置词列表的中文文本数据字向量表征方法，其特征在于：包括以下步骤：S1：生成全量词集与强相关词集，并构建BIE位置词列表；

S2：利用字向量的原始表征构建位置无关性词向量；

S3：基于词频加权平均池化算法缩合词集中的词向量表征；

S4：将字的BIE位置词向量加权并与原始字向量拼接，生成包含词汇位置信息的字向量；

所述步骤S1具体包括以下步骤：

S11：假设存在中文文本数据集D＝{S，Y}，其中S＝{s1，s2，…，sn}为中文文本集合，Y为标签集；对每条文本si∈S，根据全词典匹配算法与TF-IDF算法，生成全量词集Wa＝{wa1，wa2，…，wan}和强相关词集Wb＝{wb1，wb2，…，wbn}；其中w＝{[k1，st1，ed1]，[k2，st2，ed2]，…，[km，stm，edm]}，表示词汇w匹配到文本ki的sti到edi位置；

S12：根据字在词中的位置，利用词集Wa，Wb，对数据集D中的文本s＝{c1,c2,...，cm}，ci为文本中的字，分别生成文本s的BIE位置词列表集和其中bieai＝[Bai，Iai，Eai]，Bai，Iai，Eai分别表示在文本s中以第i个字ci为开头、内部、结尾生成的词集，表示为：同理，生成

步骤S11中，生成词集Wa与Wb的规则是：使用全词典匹配算法得到文本中所有隐含词汇，作为全量词集Wa；利用TF-IDF算法对训练文本中的词按重要性排序，保留50％的词汇作为强相关词典，并与文本分词结果匹配，生成强相关词集Wb；

步骤S2具体包括：

S21：使用预训练的字符embedding表ec生成数据集中文本s的字向量的原始表征S22：根据全量词集Wa和强相关词集Wb中词与字的对应关系，生成文本s中每个词w的位置无相关性词向量：位置无关性体现在针对不同的文本s，s′，相同词的词向量相同，避免相同实体受不同预训练数据集语境的干扰，引入额外误差；

步骤S3具体包括：

对数据集中文本s中字ci对应的BIE位置词列表采用词频加权平均池化算法缩合词集中的词向量表征；使用词频作为重要性权重，分别生成全量BIE位置词向量和强相关BIE位置词向量对于词集B其缩合公式为：z(w)表示词w在数据集文本中出现的频次；

步骤S4具体包括以下步骤：

S41：对数据集中文本s中字ci，对缩合后的全量BIE位置词向量与强相关BIE位置词向量按权值T进行融合；权重T用来降低全量词集中的冗余词的重要性；得到融合后的BIE位置词向量es(B，I，E)：S42：对数据集中文本s中字ci，将融合后的BIE位置词向量es(B，I，E)与原始字向量拼接，得到最终包含词汇信息的字向量xc：xc＝[xc；es(B，I，E)]。

2.根据权利要求1所述的基于BIE位置词列表的中文文本数据字向量表征方法，其特征在于：强相关词集根据TF-IDF算法得来，即字ci的强相关BIE位置词列表中仅有一维可能有值，且长度为1，则设定权值w∈biebi。