欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021100832332
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,包括以下步骤:S1、采用基于深度学习方法中的神经网络模型对试题文本进行实体识别;

S2、采用基于深度学习方法中的神经网络模型对试题文本进行实体关系抽取;

S3、基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,并构造基于知识点关联的试题网络;

S4、根据错题集和已构建的试题网络进行试题推荐;

所述步骤S3中基于步骤S1和S2抽取到的实体及实体关系得到试题背后考查的三元组知识点,构建试题的知识图谱,具体步骤包括:S3‑1、基于步骤S1和S2抽取到的实体及实体关系,确定试题与三元组知识点之间的映射关系,并统计同一试题中出现三元组知识点的总个数,并统计各个三元组知识点在同一试题中出现的次数,从而构建好以各个三元组知识点和试题为节点,对应知识点在试题中知识点总占比为边的试题知识图谱;

S3‑2、基于步骤S3‑1构造的试题知识图谱,构造基于知识点关联的试题网络,以衡量试题间的关联程度;

所述步骤S3‑2节点间的距离计算公式如下:其中,Ci,j表示:试题i,j共有的三元组知识点集合;Li,j表示试题i与试题j之间基于知识点的关联程度即距离,Sm,i表示三元组知识点m在试题i中所有三元组知识点的占比、Sm,j表示三元组知识点m在试题j中所有三元组知识点的占比、m为Ci,j中的三元组知识点、Sp,i表示三元组知识点p在试题i中所有三元组知识点的占比、Sq,j分别表示三元组知识点q在试题i中所有三元组知识点的占;

Scom(i,j)表示试题i与试题j之间三元组知识点相似度;

Ecom(i,j)表示试题i与试题j中排除共有三元组知识点后,剩余三元组中的实体相似度,α为权重系数;

Di,j:表示在Bi,j中,且与Bj,i中的三元组具有相同实体的三元组集合;

Dj,i:表示在Bj,i中,且与Bi,j中的三元组具有相同实体的三元组集合;Bi,j:表示排除试题i与试题j公有的三元组知识点后,试题i中的其它三元组的集合;

Bj,i:表示排除试题i与试题j公有的三元组知识点后,试题j中的其它三元组的集合;

Ep,q:表示三元组p与三元组q具有的相同实体的个数;

在计算Ecom(i,j)之前,要进行实体的语义的相似度分析,即通过bert语言预训练模型得到字的词向量表示,从而得到实体的向量表示,通过实体向量的余弦相似度来判断实体之间的相似度,余弦相似度计算公式如下:其中,M,N分别表示两个实体的向量表示,sim(M,N)表示两实体的余弦相似度,其取值范围为[‑1,1]当两实体的余弦相似度大于0.8时,判定两实体相同;

所述步骤S4中根据错题集和已构建的试题网络进行试题推荐具体包括以下步骤:S4‑1、根据错题集x,错题集的大小为m,得到错题集中与第n的错题相邻的所有错题的集合Dn;

S4‑2、得到所有与错题相邻并且非错题集x中的错题所组成的错题集合C,并计算集合C中的元素ci出现在D1‑Dm中的频次S4‑3、遍历C中的元素,找到具有相同 的元素,组成同频集合TF;

S4‑4、计算 Zj表示同频集合中的试题j与错题集中错题的距离之和;

其中,X表示错题集合,集合中元素个数为m;dij:表示试题i与试题j间的距离,即基于知识点的关联程度;Dn:表示第n个错题与其相邻的试题集合;C:C=D1∪D2...∪Dm‑X,表示所有与错题有关联的试题的集合,并排除其中与错题集X中相同的元素; 表示集合c中的元素ci出现在D1‑Dm中的频次;TF:表示集合c中 相同的项组成的集合;

S4‑5、对于不同频数的TF集合按照频数从高到低排序,TF中的试题按照Zj从大到小排序,以此得到试题集合C中所有试题的排序,取前k项进行推荐。

2.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S1中对试题文本进行进行实体识别,具体步骤包括:S1‑1、设计实体类别,并对试题文本进行实体标注,形成数据集;

S1‑2、构建深度学习神经网络模型,并在步骤S1‑1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;

S1‑3、用步骤S1‑2中训练好的神经网络模型对未标注的试题文本进行实体标注。

3.根据权利要求2所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S2中对试题文本进行进行实体关系抽取,具体步骤包括:S2‑1、设计实体关系类别,并对试题文本进行实体关系标注,形成数据集;

S2‑2、构建深度学习神经网络模型,并在步骤S2‑1中的数据集进行训练,并保存训练好的神经元之间的权重系数在内的模型参数;

S2‑3、用步骤S2‑2中训练好的神经网络模型对未进行关系抽取的试题文本进行实体关系抽取。

4.根据权利要求1所述的一种基于信息抽取和知识图谱的试题推荐方法,其特征在于,所述步骤S3‑1知识点占比的计算方法如下:其中Ni表示三元组知识点i在试题j中的次数,Mj为试题j中统计的所有三元组知识点的个数,相同三元组也算在统计数里面,Si,j表示三元组知识点i在试题j中所有三元组知识点的占比。