知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于统计和深度学习的智能中文分词方法

￥46300

专利号： 2019106557952

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于统计和深度学习的智能中文分词方法，其特征在于按照以下步骤进行：

Step1.数据预处理；

Step2.领域术语集构建；

Step3.分词方法选择；

Step4.分词判定；

所述Step1.中对待分词的文本文档进行预处理，借助文中原有具有分隔作用的符号将文档切分，从而得到较短的句子或字符串；

所述Step2.中对某个领域中各个子学科从1到n进行编号，建立术语集TS，统计各个子学科中最常用的m个专业术语，这些每个学科最常用的专业术语分别构成相应的学科术语集TSi；

所述Step3.中根据待分词文档题目判断本文档所属子学科领域，提取相应学科术语集TSi，遍历术语集TSi，统计待分词文档中包含的学科领域专业术语及其数量，文档段落中专业术语出现总次数即为定义专业术语数量阈值为Γ＝k·total_num，分词方法的选择如下所示：文档中专业术语出现总次数等于每个专业术语出现次数的累加和，其中，numj表示第j个专业术语在文档中出现的次数，对于专业术语数量阈值Γ＝k·total_num，其中，k表示比例系数，total_num表示文档总字数，当待分词文档某一段落中专业术语出现总次数大于阈值时，说明该段落大量使用了学科领域的专业术语，为提高分词准确率，应采用双向LSTM算法进行分词；当待分词文档某一段落中专业术语出现总次数小于阈值时，可以认为该段落为一般性描述，专业术语使用较少，故采取基于统计的分词方法即隐马尔科夫模型完成对段落的分词。

2.如权利要求1所述的基于统计和深度学习的智能中文分词方法，其特征在于：所述Step4.中定义一个成词信息熵Ψ其中，p(x,y)为汉字x和汉字y共现的概率，p(x)、p(y)分别表示汉字x和y出现的概率，λ为比例系数，ε为允许的误差项，对于经过隐马尔科夫模型分词方法完成的分词，需通过计算成词信息熵Ψ来判断汉字x和y的紧密程度，从而确定其是否能够构成一个词，成词信息熵的值越大，表示这两个字构成一个词的结合程度越高；反之，表示构成一个词的结合程度越低，经过成词信息熵的筛选，进一步提高了隐马尔科夫模型分词准确性，双向LSTM神经网络会将第一次预测的结果作为一个新的特征，进行下面的预测，具有很高的准确性和较强的学习能力，故不需对其分词结果再做一次判定。