1.一种基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,包括下述步骤:获取阅卷人员预先写入的标准答案,基于消息队列的形式,将所述标准答案读出到文档中,生成选择题答案集和主观题答案集;
基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取,将提取到的文字关键词作为主观题答案集的特征文字,同时,直接获取选择题答案集中的全部字符,作为选择题答案集的特征文字;
获取待审阅的答题文档,并对其进行扫描,获取到所述答题文档的扫描图片;
基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分,若所述扫描图片中的字母部分为连续片段,则将所述字母部分作为选择答案测试集;
基于预设汉字语言包,使用Tesseract-OCR文字识别技术,识别出所述答题图片中的汉字部分,作为主观答案测试集;
将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比,获取到两两相同的字母个数,将所述个数与单个选择题对应的分值进行相乘,获取到所述选择答案测试集对应的实际分值 ;
基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取,将提取到的文字关键词作为主观答案测试集的特征文字,将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算,使用百分比的格式表示所述相似度,并基于预设的算法公式: ,获取到主观答案测试集的实际分值 ,其中,为所述相似度, 为主观题的总分值;
基于预设的加值法 ,分别获取所述所述选择答案测试集对应的实际分
值 和所述主观答案测试集的实际分值 ,获取到,即为本次阅卷的最终分值。
2.根据权利要求1所述的基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,所述获取阅卷人员预先写入的标准答案,包括:预先提供可输入答案的输入框,获取阅卷人员输入的内容饼加入到消息队列中。
3.根据权利要求2所述的基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,所述基于消息队列的形式,将所述标准答案读出到文档中,包括:基于RabbitMq进行消息队列的传输和持久化缓存,同时,所述消息队列基于“先进先出”的原则,缓存获取到的标准答案,并读出到文档中。
4.根据权利要求1至3任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,所述在生成选择题答案集和主观题答案集之前和所述缓存获取到的标准答案之后,包括:基于预设的ASCII码转化模型,对获取到的被缓存的标准答案,依次按照单个字符的顺序进行ASCII码转换,获取ASCII码值;
若所述缓存的标准答案在预设的连续时间段内,所述单个字符对应的所述ASCII码值的范围都在[65,90]之间,则将所述单个字符进行区别保存,生成选择题答案集;
若所述缓存的标准答案中单个字符进行ASCII码值转换时,转换结果为NULL,则依次获取所述单个字符,进行区别保存,生成主观题答案集,其中,若存在两个字符的转换结果都为NULL,且所述两个字符间存在其他字符的转换结果非NULL,则所述其他字符按照其转换的顺序保存到主观题答案集中。
5.根据权利要求4所述的基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,所述若所述扫描图片中的字母部分为连续片段,判断方式包括:在所述扫描图片上按照字符的高度设置行号,按照字符的宽度设置标尺码,在识别所述扫描图片中的字母部分时,获取所述字母部分中每一个字母对应的行号和标尺,若存在字母间的行号与标尺不在连续,则结束识别,将已经识别出的行号和标尺连续的字母部分作为选择答案测试集。
6.根据权利要求1所述的基于TF-IDF算法和TextRank算法的智能阅卷方法,其特征在于,所述基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取或者所述基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取,包括:步骤一,基于TF-IDF算法对所述主观题答案集或者主观答案测试集进行文字关键词提取,获取到若干关键词,具体步骤如下,基于预设分词工具,对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理,获取到若干词语片段,统计所述词语片段的总个数N,基于预设的算法公式:TF-IDF= ,计算每一个词语片段在所述主观题答案集或者主观答案测试集中的权重,其中,T为每一个所述词语片段在所述N中出现的总次数;
步骤二,基于TextRank算法对所述主观题答案集或者主观答案测试集进行文字关键词提取,获取到若干关键词,具体步骤如下,基于预设分词工具,对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理,获取到若干词语片段,统计所述词语片段的总个数N,对所述若干词语片段构建网络节点模型,使用textrank函数,获取每一个词语片段在所述主观题答案集或者主观答案测试集中的权重;
步骤三,将所述步骤一获取到的权重基于从高到低的顺序排序,选择出前m个权重对应的词语片段,作为关键词的第一候选词集,同时,将所述步骤二获取到的权重基于从高到低的顺序排序,选择出前m个权重对应的词语片段,作为关键词的第二候选词集;
步骤四,将所述第一候选词集和第二候选词集中的词语片段进行匹配,若存在某个词语片段,同时属于第一候选词集和第二候选词集,则将所述词语片段进行筛选,加入到最终候选集中,将所述最终候选集中的词语片段作为主观题答案集或者主观答案测试集的特征文字。
7.一种基于TF-IDF算法和TextRank算法的智能阅卷装置,其特征在于,包括:
标准答案获取模块,用于获取阅卷人员预先写入的标准答案,基于消息队列的形式,将所述标准答案读出到文档中,生成选择题答案集和主观题答案集;
特征文字提取模块,用于基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取,将提取到的文字关键词作为主观题答案集的特征文字,同时,直接获取选择题答案集中的全部字符,作为选择题答案集的特征文字;
待审文档获取模块,用于获取待审阅的答题文档,并对其进行扫描,获取到所述答题文档的扫描图片;
选择题答案获取模块,用于基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分,若所述扫描图片中的字母部分为连续片段,则将所述字母部分作为选择答案测试集;
主观题答案获取模块,用于基于预设汉字语言包,使用Tesseract-OCR文字识别技术,识别出所述答题图片中的汉字部分,作为主观答案测试集;
选择题分值确定模块,用于将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比,获取到两两相同的字母个数,将所述个数与单个选择题对应的分值进行相乘,获取到所述选择答案测试集对应的实际分值 ;
主观题分值确定模块,用于基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取,将提取到的文字关键词作为主观答案测试集的特征文字,将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算,使用百分比的格式表示所述相似度,并基于预设的算法公式: ,获取到主观答案测试集的实际分值 ,其中,为所述相似度,为主观题的总分值;
最终分值计算模块,用于基于预设的加值法 ,分别获取所述所述选择答案测试集对应的实际分值 和所述主观答案测试集的实际分值 ,获取到 ,即为本次阅卷的最终分值。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。
9.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。