欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018110626382
申请人: 重庆工业职业技术学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用于搜索引擎的文本信息规律分析方法,其特征在于,包括: 获取自然语言原始文档的文本; 对所述自然语言原始文档的文本进行特征提取,生成文本特征向量; 利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本索引集以及与样本索引集对应的样本原始文档;利用预先训练的语义分布规律模式确定模型根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式;所述语义分布规律模式根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率,确定在二者中都具有高词频的词组类型为索引集所涉及的词组类别;根据所述文本的语义分布规律模式,根据该样本原始文档与样本索引集之间的一致性,确定索引集涉及的词组类别,以同样的文本语义分布规律模式选取当前自然语言原始文档中同一类别的词组,作为当前原始文档的索引集,将所述自然语言原始文档的文本转换成索引集;所述对自然语言原始文档的文本进行特征提取,生成文本特征向量,包括:提取所述文本中的词组,对所述词组进行属性分类,统计各类别词组的词频,根据词组类别和各类别词组的词频生成文本特征向量;所述提取所述文本中的词组,对所述词组进行属性分类,统计各类别词组的词频,包括: 对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行归类,确定每个词组的属性类别,并对每个属性类别的词组进行词频统计;对每个词组进行归类,确定每个词组的属性类别,具体包括:建立词组类别索引表,词组类别索引表中记录每个类别对应的常见词组,通过调用对应的词组类别索引表,将从自然语言原始文档文本中提取并去停用词之后保留的词组对应该索引表归入词组类别;利用统计的词组类别和每个类别的词频,将自然语言原始文档的文本生成对应的文本特征向量,表示为{(S1,N1),(S2,N2)…(Sn,Nn)},其中S1、S2…Sn为词组类别,N1、N2…Nn为每个词组类别的词频;在对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别之后,还包括: 对语义识别后的多个词组进行去停用词过滤去噪,滤除所述多个词组中包含的噪音词组;所述利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,包括: 预先训练神经网络模型,生成向量匹配模型,并利用所述向量匹配模型,计算当前自然语言原始文档文本的所述文本特征向量与所述样本库中的样本原始文档的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文档作为目标样本原始文档。

2.根据权利要求1所述的一种用于搜索引擎的文本信息规律分析方法,其特征在于,所述利用预先训练的语义分布规律模式确定模型根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式,包括: 计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定文本的语义分布规律模式。

3.一种用于搜索引擎的文本信息规律分析系统,其特征在于,包括: 文本获取模块,用于获取自然语言原始文档的文本; 文本特征向量生成模块,对所述自然语言原始文档的文本进行特征提取,生成文本特征向量; 向量匹配模块,用于根据所述文本特征向量将所述自然语言原始文档的文本与样本库中的样本进行匹配,获取目标样本; 语义分布规律模式确定模块,用于根据所述目标样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式,所述语义分布规律模式确定模块,具体用于:计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定语义分布规律模式;索引集生成模块,用于根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本转换成索引集,根据该样本原始文档与样本索引集之间的一致性,确定索引集涉及的词组类别,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率,确定在二者中都具有高词频的词组类型为索引集所涉及的词组类别;以同样的文本语义分布规律模式选取当前自然语言原始文档中同一类别的词组,作为当前原始文档的索引集;所述文本特征向量生成模块用于:提取所述文本中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量;所述提取所述文本中的词组,对所述词组进行属性分类,统计各类别词组的词频,包括: 对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行归类,确定每个词组的属性类别,并对每个属性类别的词组进行词频统计,对每个词组进行归类,确定每个词组的属性类别,具体包括: 建立词组类别索引表,词组类别索引表中记录每个类别对应的常见词组,通过调用对应的词组类别索引表,将从自然语言原始文档文本中提取并去停用词之后保留的词组对应该索引表归入词组类别;利用统计的词组类别和每个类别的词频,将自然语言原始文档的文本生成对应的文本特征向量,表示为{(S1,N1),(S2,N2)…(Sn,Nn)},其中S1、S2…Sn为词组类别,N1、N2…Nn为每个词组类别的词频;在对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别之后,还包括:对语义识别后的多个词组进行去停用词过滤去噪,滤除所述多个词组中包含的噪音词组,利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,包括: 预先训练神经网络模型,生成向量匹配模型,并利用所述向量匹配模型,计算当前自然语言原始文档文本的所述文本特征向量与所述样本库中的样本原始文档的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文档作为目标样本原始文档。

4.根据权利要求3所述的一种用于搜索引擎的文本信息规律分析系统,其特征在于,所述语义分布规律模式确定模块,具体用于:计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定语义分布规律模式。