知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

分词训练集的生成方法和装置

￥28000

专利号： 2015103291094

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种分词训练集的生成方法，其特征在于，包括：获取训练语料，并采用不同的分词器分别对相同的训练语料进行分词，得到对应不同分词器的分词结果；

将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果；

根据所述分词结果，对所述非精确匹配的分词结果进行降噪处理，得到分词训练集。

2.根据权利要求1所述的方法，其特征在于，所述非精确匹配的分词结果包括：粒度不同的分词结果和歧义错误的分词结果，所述根据所述分词结果，对所述非精确匹配的分词结果进行降噪处理，得到分词训练集，包括：在获取的训练语料中，删除歧义错误的分词结果对应的训练语料，得到保留的训练语料，并获取所述保留的训练语料对应的分词结果；

在所述保留的训练语料对应的分词结果中，选择样本词条，并由所述样本词条组成样本训练集；

在所述样本训练集内，对粒度不同的分词结果进行降噪处理，得到分词训练集。

3.根据权利要求2所述的方法，其特征在于，所述在所述样本训练集内，对粒度不同的分词结果进行降噪处理，得到分词训练集，包括：对所述样本训练集进行模型训练，生成多个特征函数，并获取每个特征函数的权重；

计算每个特征函数的模型样本期望差，根据每个特征函数的权重和所述模型样本期望差，确定每个特征函数的加权期望差，并根据所述加权期望差对所述特征函数进行排序；

根据排序后的特征函数，对粒度不同的分词结果进行修正。

4.根据权利要求3所述的方法，其特征在于，所述在所述样本训练集内，对粒度不同的分词结果进行降噪处理，得到分词训练集，还包括：判断是否需要继续修正；

如果需要，重新进行模型训练以及修正；

如果不需要，将修正后的样本训练集内的词条组成分词训练集。

5.根据权利要求3或4所述的方法，其特征在于，当按照加权期望差从大到小的顺序排序时，所述根据排序后的特征函数，对粒度不同的分词结果进行修正，包括：在样本训练集内，对应粒度不同的分词结果，将排序在前的特征函数对应的词条，统一替换为排序在后的特征函数对应的词条。

6.根据权利要求2所述的方法，其特征在于，所述在所述保留的训练语料对应的分词结果中，选择样本词条，包括：在所述保留的训练语料对应的分词结果中，选择出现频率大于预设值的词条，确定为样本词条。

7.一种分词训练集的生成装置，其特征在于，包括：分词模块，用于获取训练语料，并采用不同的分词器分别对相同的训练语料进行分词，得到对应不同分词器的分词结果；

划分模块，用于将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果；