欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018100111638
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文景转换中实现场景真实性增强的方法,其特征在于,包括以下步骤:

1)、从互联网获取描述某一场景的多篇中文文档,组建场景语料库;

2)、对描述某一场景的中文文档集进行不去重的分词处理;然后对分词处理后的中文文档进行去停留词处理;

3)、利用步骤2)中文文档集去停留词处理后的分词结果,对分词结果中的实体名词利用词频统计的方法,得到实体名词的统计指标;

4)、利用步骤3)的实体名词的统计指标,构建文档集对应场景类别的特征词列表;

5)、利用步骤4)的场景类别特征词列表,分析并抽取最优场景类别特征词,建立场景实体词典;

所述步骤3)对分词结果中的实体名词利用词频统计的方法,得到实体名词的统计指标,具体包括:

传统的文本特征提取方法TFIDF模型主要考虑特征项的频率信息TF以及反文档频率信息IDF,特征项频率TF是指特征项在文档中出现的次数,对于场景概念模型而言,获取某一类别C的n篇文档,构成文档集A,实体名词w在类别C的文档集中出现的次数是获取场景概念词典的重要参考之一;

对于每一个文档集A,利用去停留词处理后的中文文档的结果,统计n篇文档中出现的实体名词出现频率大小;

定义词wi在A中词频数fi为

count(wi,A)/size(A),0<fi<1count(wi,A)定义为词wi在A的文档集中出现的次数,size(Ak)定义为A中所有实体名词出现的总数;

再采用反文档频率IDF进行计算,反文档频率IDF是特征项在文档集分布情况的量化,IDF的计算方法为:文档集A中总文档数量设为N,定义包含词w的文档数为n,则场景模型中的反文档频率定义为:

2.根据权利要求1所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤1)的场景语料库由同一场景类别的文档组建,场景语料库为具有明显场景特征的文档集。

3.根据权利要求1‑2之一所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤1)场景实体模型为使用实体名词所组成的词向量 对场景类别进行实体概念表示,wt表示实体名词,每个场景类别对应一组相关的词向量,定义下标t为概念词典的阈值,亦为词向量的模,通过获取同一类别的大量文档,统计文档中出现次数较多且与类别C相关联的实体名词组成词向量 定义m为实体名词的数量,以 确定场景类别C的场景实体词典

4.根据权利要求1所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤2)对场景语料库中的中文文档进行不去重的分词处理;然后对分词处理后的中文文档进行去停留词处理,具体包括:

对于获取的多篇文档,首先对文档进行去噪处理,去除文档中包括广告词与英文链接在内的词语,利用ROST中文分词工具进行分词处理。

5.根据权利要求1所述的一种文景转换中实现场景真实性增强的方法,其特征在于,所述步骤4)利用步骤3)的实体名词的统计指标,分析场景类别特征,具体包括;定义该列表为实体名词所组成的词向量 对场景类别进行概念表示;

对于每一篇文档进行研究,假设其场景由多个实体名词构成,则对于文档场景用p(wn)表示场景实体词wn的概率,生成文档所描述场景 的概率为:由于场景语料库中,选择的文档其场景多以风景描写为主,且是唯一的,假设给文档先选择一个场景s,在根据该场景生成文档所描述场景需要的实体,该文档所描述的场景唯一,假设场景类别有s1,s2,...,sk,则生成文档场景的概率为:选定t值后,对场景类别特征词的列表前t项随机划分为两个场景类别s1,s2;然后对每一篇文档进行概率分析,假设结果对于一篇文档 其生成概率为:其中N=U+V,U表示场景类别s1所包含实体名词的个数,V表示场景类别s2所包含的实体名词个数,则t值的选择不合适。

6.根据权利要求5所述的一种文景转换中实现场景真实性增强的方法,其特征在于,对于前t项出现多个子场景的情况,t值的判断仍然进行遍历二分法,二分法中间点取值范围为[2,t‑1],遍历判断t值是否合适。