1.一种命名实体识别方法,其特征在于,包括:
根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型,其中,所述规则词典为字符串匹配,所述统计模型为条件随机场模型;
确定所述待识别的文本所属的类别;
其中,所述确定所述待识别的文本所属的类别,包括:确定待识别的文本的词和初始命名实体类别,根据待识别的文本的词和所述初始命名实体类别获取特征信息,其中,所述特征信息包括:待识别的文本中的词,初始命名实体类别与其前一个词的组合,以及,初始命名实体类别与其后一个词的组合;
根据所述特征信息以及预设文本分类算法,确定待识别的文本所属的类别;
根据所述类别和所述初始命名实体,得到组合文本,并根据所述组合文本确定最终的命名实体;
其中,所述根据所述类别和所述初始命名实体,得到组合文本,包括:获取属于所述类别的初始命名实体,根据属于所述类别的初始命名实体和待识别的文本中的其余词进行组合,得到组合文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述组合文本确定最终的命名实体,包括:获取预先收集的属于所述类别的训练语料;
根据训练语料确定每种组合文本的出现概率;
将出现概率最大的组合文本中的初始命名实体,确定为最终的命名实体。
3.一种命名实体识别装置,其特征在于,包括:
预处理模块,用于根据预设规则对待识别的文本进行预识别,得到识别出的初始命名实体,所述预设规则包括:基于规则词典和基于统计模型,其中,所述规则词典为字符串匹配,所述统计模型为条件随机场模型;
分类模块,用于确定所述待识别的文本所属的类别;
其中,所述分类模块,具体用于:
确定待识别的文本的词和初始命名实体类别,根据待识别的文本的词和所述初始命名实体类别获取特征信息,其中,所述特征信息包括:待识别的文本中的词,初始命名实体类别与其前一个词的组合,以及,初始命名实体类别与其后一个词的组合;
根据所述特征信息以及预设文本分类算法,确定待识别的文本所属的类别;
后处理模块,用于根据所述类别和所述初始命名实体,得到组合文本,并根据所述组合文本确定最终的命名实体;
所述后处理模块包括:
第一单元,用于获取属于所述类别的初始命名实体,根据属于所述类别的初始命名实体和待识别的文本中的其余词进行组合,得到组合文本。
4.根据权利要求3所述的装置,其特征在于,所述后处理模块包括:第二单元,用于获取预先收集的属于所述类别的训练语料;根据训练语料确定每种组合文本的出现概率;将出现概率最大的组合文本中的初始命名实体,确定为最终的命名实体。