欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019106557952
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于统计和深度学习的智能中文分词方法,其特征在于按照以下步骤进行:

Step1.数据预处理;

Step2.领域术语集构建;

Step3.分词方法选择;

Step4.分词判定;

所述Step1.中对待分词的文本文档进行预处理,借助文中原有具有分隔作用的符号将文档切分,从而得到较短的句子或字符串;

所述Step2.中对某个领域中各个子学科从1到n进行编号,建立术语集TS,统计各个子学科中最常用的m个专业术语,这些每个学科最常用的专业术语分别构成相应的学科术语集TSi;

所述Step3.中根据待分词文档题目判断本文档所属子学科领域,提取相应学科术语集TSi,遍历术语集TSi,统计待分词文档中包含的学科领域专业术语及其数量,文档段落中专业术语出现总次数即为 定义专业术语数量阈值为Γ=k·total_num,分词方法的选择如下所示:文档中专业术语出现总次数等于每个专业术语出现次数的累加和,其中,numj表示第j个专业术语在文档中出现的次数,对于专业术语数量阈值Γ=k·total_num,其中,k表示比例系数,total_num表示文档总字数,当待分词文档某一段落中专业术语出现总次数大于阈值时,说明该段落大量使用了学科领域的专业术语,为提高分词准确率,应采用双向LSTM算法进行分词;当待分词文档某一段落中专业术语出现总次数小于阈值时,可以认为该段落为一般性描述,专业术语使用较少,故采取基于统计的分词方法即隐马尔科夫模型完成对段落的分词。

2.如权利要求1所述的基于统计和深度学习的智能中文分词方法,其特征在于:所述Step4.中定义一个成词信息熵Ψ其中,p(x,y)为汉字x和汉字y共现的概率,p(x)、p(y)分别表示汉字x和y出现的概率,λ为比例系数,ε为允许的误差项,对于经过隐马尔科夫模型分词方法完成的分词,需通过计算成词信息熵Ψ来判断汉字x和y的紧密程度,从而确定其是否能够构成一个词,成词信息熵的值越大,表示这两个字构成一个词的结合程度越高;反之,表示构成一个词的结合程度越低,经过成词信息熵的筛选,进一步提高了隐马尔科夫模型分词准确性,双向LSTM神经网络会将第一次预测的结果作为一个新的特征,进行下面的预测,具有很高的准确性和较强的学习能力,故不需对其分词结果再做一次判定。