欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021100073322
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述方法包括以下步骤:

S1、构建争议焦点树库,剔除冗余的争议焦点,得到争议焦点标签集合C;

S2、从争议焦点树库中获得案例文件,从案例文件中提取原告和被告的诉辩内容,利用构建好的争议焦点树库,结合先验知识及人工规则,完成数据的标注,并统一为“原告诉称”+“被告辩称”+“争议焦点标签”格式,得到数据集;

S3、采用先验知识与主动学习相结合的方法扩充数据集,得到完整可训练的数据集;

S4、将步骤S3得到的数据集进行中文数据预处理,并将预处理后的数据转换为模型输入所需要的数据格式;

S5、利用BERT‑wwm全字掩蔽模型训练得到文本字向量矩阵,将文本字向量矩阵同时作为双向LSTM网络模型和TextCNN网络模型的输入;

S6、使用双向LSTM网络模型提取文本全局语义特征;在TextCNN模型中利用不同大小的卷积核提取文本不同粒度的局部语义特征;将两个模型的概率结果进行平均计算,设定阈值进行预测,输出概率超过阈值的争议焦点。

2.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:

所述步骤S1中,争议焦点树库的构建具体为:根据案由将案件分为民事案件、刑事案件和行政案件三类;

该民事案件包括民间借贷纠纷、机动车交通事故责任纠纷、离婚纠纷、追索劳动报酬纠纷和股权转让纠纷;

该刑事案件包括盗窃罪、诈骗罪、危险驾驶罪、故意伤害罪和受贿罪;

该行政案件包括劳动和社会保障行政管理、道路交通管理、房屋拆迁管理、商标行政管理和金融行政管理;

针对每一类案由,结合法学知识,归纳出相应的争议焦点,并导入争议焦点的原告和被告表述文本及相应的裁判文书,形成争议焦点树;

根据真实的且法律适用的争议焦点及其性质,对每一类争议焦点树进行再次的归纳、筛选、梳理、抽象提取和文本编辑,最终完成对案由案件的争议焦点树库的构建。

3.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S3中,扩充数据具体为:从争议焦点树库取得标注好的数据后,通过研究法律文本规范性的特征,对每一个争议焦点撰写规则,选取随机森林作为分类器,通过查询函数在未标注的样本数据集中查询信息量大的样本,利用先验知识和规则对这些未标注的样本进行标注纠正,迭代训练,完成对数据的扩充。

4.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S4中,数据预处理具体为:读取文本,提取原告诉称和被告辩称文本内容,去除文本中的英文字符、表情和乱码,对文本进行分句;

使用分词工具和司法领域专有字典对句子分词,去除停用词;

计算句子得分,选取得分排名靠前的句子,并保持句子在原文本中的顺序。

5.根据权利要求4所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述计算句子得分为:利用词频逆文本频率指数TF‑IDF方法计算句子中每一个词的tf‑idf值,句子的得分score为所有词的tf‑idf值之和。

6.根据权利要求5所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述tf‑idf的计算方法为:tf表示词条在文本中出现的概率,其中分子ni,j表示该词在文件dj中出现的次数,分母则表示文件dj中所有词出现的次数总和;

idf表示词条的逆向文件频率,其中|D|是语料库中的文件总数,|{j:ti∈dj}|表示包含词条ti的文件数目,为保证分母不为零,使用|{j:ti∈dj}|+1tf‑idf=tf*idf

设tf‑idf值越大,则这个词成为一个关键词的概率就越大;设一句话内所有词的tf‑idf值之和score越大,则该句话越重要。

7.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述步骤S4具体为:将数据转换为模型输入所需要的数据格式,利用BERT‑wwm全字掩蔽模型训练得到文本字向量矩阵,该文本字向量矩阵的获取具体为:将原告诉称文本和被告辩称文本作为BERT‑wwm全字掩蔽模型输入的句子1和句子2,在句子1开头加入[CLS]开始符号,在句子1末尾加入[SEP]结尾符,在句子2末尾加入[SEP]结尾符,最终输入文本表示为[CLS]+句子1+[SEP]+句子2+[SEP]格式,将文本中的每个字符转换为字向量Et,并结合表示位置的位置向量Ep以及用于区分句子1和句子2的段向量Ea,将这三个向量拼接起来作为BERT‑wwm全字掩蔽模型的输入,输出得到输入文本的字向量矩阵。

8.根据权利要求1所述的一种基于深度学习混合模型的争议焦点检测方法,其特征在于:所述S6具体为:

设定阈值进行预测,输出概率超过阈值的争议焦点定义为:将BERT‑wwm全字掩蔽输出的字向量矩阵作为双向LSTM模型和TextCNN模型的输入;

TextCNN模型中使用一维卷积,并设置大小不同的卷积核提取多个粒度的局部特征,两个模型分别预测每个争议焦点标签得分,该争议焦点标签的列数为|C|,使用sigmod函数激活得到每个标签的概率值,将两个模型的得到的概率结果算数平均,在[0.5,0.7]数值范围内按步长0.01设置阈值,超过阈值则预测为该标签存在争议焦点,用1表示;低于阈值则预测为该标签不是争议焦点,用0表示。

9.基于权利要求1~8中任何一项所述方法的基于深度学习混合模型的争议焦点检测装置,其特征在于:所述装置包括争议焦点树库构建模块、数据生成模块、模型训练模块和争议焦点预测模块;

该争议焦点树库构建模块与数据生成模块信号连接;

该数据生成模块一端与争议焦点树库构建模块信号连接,另一端与模型训练模块信号连接;

该模型训练模块一端与数据生成模块信号连接,另一端与争议焦点预测模块信号连接;

该争议焦点预测模块与模型训练模块信号连接;

该争议焦点树库构建模块用于针对每一类案由的每一个争议焦点,导入争议焦点的原被告表述文本及相应的裁判文书,构建出案由的案件争议焦点树库;

该数据生成模块用于从争议焦点树库中获得案由案件的数据集,并扩展数据以供模型训练;

该模型训练模块针对每一类案由案件,对输入数据集进行模型训练,在[0.5,0.7]数值范围内按步长0.01调整阈值选取并保存最优模型;

该争议焦点预测模块根据输入测试案件数据,选择案件所属类别,运行相应的案由案件模型,预测输出案件的所有争议焦点。