欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2024107106212
申请人: 高从明
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-03-31
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于大数据的中文网页个性化精准分类系统,其特征在于,直接对互联网上的海量网页进行分类,网页集按照一定的策略从网络上抓取得到,然后对网页数据进行前置处理,并对前置处理后的文本信息的特征进行筛选,最后用精准分类系统对其进行分类:P1:基于网页中不同标签的特征项对分类的重要程度不同,解析网页的标签结构特征,构建对HTML无用标签的过滤算法,并对高价值的标签集合赋予对应的权值,提取得到对网页分类影响较大的标题、关键词及正文文本;

P2:在文本前置处理过程中,改进顺序最优匹配分词算法,结合中文文本特征,采用三字长交集型歧义字段的处理框架,加强算法的歧义识别能力;

P3:在特征筛选阶段,基于特征项在类间分布情况和每个类别中的分布情况,融入CHI计算量计算特征项的分布不确定性,采用TF*IDF*CHI权重计算方法,综合考虑特征项在某一类和所有文本中出现的次数、类别信息对特征权重的影响及特征出现位置;

P4:构建网页自动分类模型各模块,其中包括:

模块1:海量网页数据收集模块:对网页url进行爬取采集,构建网页文本集;

模块2:网页数据前置处理模块:抽取网页高价值文本内容,并进行分词和去噪处理;

模块3:特征提取模块:对特征进行筛选和提取;

模块4:精准分类模块:构造精准分类系统对最终构建的文本向量分类。

2.根据权利要求1所述基于大数据的中文网页个性化精准分类系统,其特征在于,海量网页数据收集模块:网页自动精准分类系统不直接对URL进行分类,而是先用网络爬虫爬取URL相对应的网页文本内容,然后对网页文本内容分类,设计如下网页收集模块:(1)URL及网页内容用数据库保存:采用mysql数据库做URL池,基于mysql数据库自动去重,将表的对应字段url设置为唯一来对url自动去重;

(2)采用深度优先爬虫策略:采取深度优先爬虫方式爬取网页,让采集得到的网页内容尽可能多;

(3)采用多线程收集网页:采用多线程收集网页,降低数据库操作和等待的时间,同时,采用多线程收集网页,保证程序长时间运行且不出错,线程采用独立运行的单元,在一个线程结束时释放申请的内存单元,但线程不能无限增加;

(4)非递归程序设计。

3.根据权利要求1所述基于大数据的中文网页个性化精准分类系统,其特征在于,网页收集器的算法流程如下:①建立数据库表tbl_URL,将初始URL输入保存到表tbl_URL中,此时表中只有URL的字段信息,其余字段均为默认值,字段state的默认值为0,表示还没有对对应的url抓取网页;其中,字段state表示网页的当前状态;

②从数据库中读取url,保证同一时间访问数据库读取url的线程只有一个,采用互斥信号量实现数据库的互斥访问,当一个线程读取url时,阻塞其余线程,直到该线程结束对数据库的访问,读取url的数据库命令为:select top 20*from tbl_URL where state=0order by id desc,一次最多提取20条url,抓取的数值用num表示,通过配置文件对该变量进行配置,抓取前state=0表示未抓取的网页url,执行操作后将state字段置为1,表示网页正在被抓取,操作结束后,结束阻塞,释放内存给下一个排队的线程;

③抓取页面时,包括三种情况:一是对url进行解析时,无法获得该url相对应的端口和服务器等相关信息,则该url出错,将该url的state值置为5;二是能正确读取到该url相对应的端口和服务器等信息,则继续读取对应的页面内容,读取后将此url的state值置为2,表示该网页已抓取完毕,并将该网页内容保存到表tbl_URL的字段File中,同时查找该网页中的其他超链接,将其他超链接提取出来保存到数据库;三是能正确读取到该url对应的端口和服务器等信息,但继续读取相对应的网页内容时连接超时,则表示此url相对应的网页已不存在,此时把对应的unAccessible的数值加1,unAccessible的临界值设置为10,当该值达到临界值时,将state字段置为5;

④一次的抓取完成后,则该线程结束,重复以上操作,继续下一次的抓取,直到数据库中没有state值为0的记录,程序结束,网页收集完成。

4.根据权利要求1所述基于大数据的中文网页个性化精准分类系统,其特征在于,网页数据前置处理模块:对网页内容进行信息抽取以及对得到的文本信息进行文本前置处理,包括中文分词和文本去躁,过程模块分为网页海量数据抽取和文本前置处理。

5.根据权利要求1所述基于大数据的中文网页个性化精准分类系统,其特征在于,网页海量数据抽取:对网页的正文内容和高价值标签中的相关内容的文字信息进行抽取得到原始特征的语料源,网页的有效信息存在于标题title、超链接、关键字metakeywords和描述description、正文body中,无用标签则包括有脚本标签