欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023100185312
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-08-01
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于数据流匹配的电子病历查重率估计方法,其特征在于,包括:获取历史病历数据,根据历史病历数据构建关键词词典和词频统计表;获取用户的病历数据信息,该信息包括病历主诉、关键词、病历摘要、所属医疗机构以及医护信息;根据关键词词典和词频统计表提取待查重病历数据信息中的特征词;采用领域词系统对提取出的特征词进行标准化处理,得到统一的特征词;计算统一特征词和目标特征词的相似度;根据相似度计算结果对病历数据信息进行综合判别,得到电子病历查重率估计结果。

2.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,建关键词词典和词频统计表的过程包括:历史病历数据信息包括医疗问题、客观体征、评估和诊断结果以及诊疗计划;采用文本排序TextRank算法提取病历数据信息中的特征词;统计关键词在语料库中的词频‑逆向文件频率值,并将该值作为权重,到特征词向量;将所有的特征向量进行集合,得到关键词词典;统计关键词词典中每个关键词的个数,将所有的关键词个数进行集合,得到词频统计表。

3.根据权利要求2所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,采用文本排序TextRank算法提取病历数据信息中的特征词的过程包括:将文本T按照完整句子进行分割,对分割后的每个句子进行分词和词性标注处理;对经过词性标注的句子过滤除名词、动词、形容词词性之外的其他词;构建关键词图,其中关键词图中的节点为保留词,共现关系为两点之间的边,两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边,K表示窗口大小即最多共现K个词汇;计算各节点TextRank收敛值;选择TextRank值最高的Top K个词汇作为最终关键词;将最终关键词作为候选关键词;将候选关键词在原始文本中进行标记。

4.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,提取待查重病历数据信息中的特征词的过程包括:采用基于序列标准的方法对病历数据进行标注;根据关键词词典和词频统计表,采用条件随机场模型对标注后的病历命名实体进行识别;采用支持向量机SVM模型对电子病历实体进行关系抽取,得到文本中的特征词。

5.根据权利要求4所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,采用条件随机场模型对标注后的病历命名实体进行识别的过程包括:

第一步、制定特征模板,该特征模块用于确定电子病历输入数据中的分词;特征模板格式为%x[row,col],其中x取U或B,对应两种类型:Unigram标注和Bigram标注;方括号里的编号用于标定电子病历特征来源,其中row表示相对于当前分词位置的行数,0即是当前行;

col表示对应电子病历训练文件中的列数,当使用第1列时表示文字类型;

第二步、根据选取的特征模板,将标注后的电子病历的语料格式转化为条件随机场(CRF)模型所要求的语料格式;

第三步、使用条件随机场CRF工具,进行训练并进行测试。

6.根据权利要求4所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,采用支持向量机SVM模型的病历实体关系抽取过程包括:第一阶段用标注数据训练若干分类器;第二阶段是抽取过程,使用学习得到的分类器抽取中文实体名和它们的关系,最后应用最近邻kNN和SVM分类方法从文档中识别实体关系。

7.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,采用领域词系统对提取出的特征词进行标准化处理的过程包括:找出并处理领域内异名同义词语之间的关系,将其标准化为领域内的统一词语。

8.根据权利要求1所述的一种基于数据流匹配的电子病历查重率估计方法,其特征在于,采用Knuth‑Morris‑Pratt算法字符串匹配算法计算统一特征词和目标特征词的相似度;包括:将特征词中的中文字转换为中文编码字符集,其中编码不足四位的字符在编码前端补0;对形成的字符串语段进行切片,以四个字符为单位,得到一个字符组;针对一个字符串P,计算P的部分匹配值,其中部分匹配值为字符串前缀和字符串后缀的最长共有元素的长度;将一个字符串S的第一个字符与字符串P的第一个字符进行比较,若两字符串第一个字符不匹配,则搜索词后移一位,以此类推字符串S的第二个、第三个字符,直到字符串有一个字符与搜索词的第一个字符相同为止;比较字符串和搜索词的下一个字符,若相同,则继续匹配字符串S与字符串P的下一个字符,直到字符串有一个字符与搜索词对应的字符不相同为止;查询部分匹配表,获取最后一个匹配字符对应的部分匹配值,根据部分匹配值计算字符向后移动的位数;若移动搜索此后,P字符串中第k个字符仍不匹配,则继续以上方法,改变已匹配字符数与部分匹配值,继续将P字符串向后移动,逐位比较,直至搜索词的最后一位,发现完全匹配,此时搜索完成。