欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107017270
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于规则可配置的网页数据解析方法,其特征在于,包括以下步骤:

S1. Web端任务创建:Web应用程序向服务器端发送数据请求,在任务配置页面配置所需网页起始URL、网页采集规则和网页解析规则,接着通过配置数据所属的HTML标签进行数据的提起,任务配置信息填写完成后提交配置的信息;

S2. 网页采集:获取Web中通过任务配置配置的采集信息,后台根据传入的URL开始进行网页的抓取,根据配置的网页采集规则确定抓取方式,所述抓取方式包括增强模式和普通模式,所述增强模式结合使用Selenium与ChromeDriver,以及使用Python的UserAgent库构造访问头的方式去访问对应的URL,所述普通模式使用Python的aiohttp库和UserAgent库构造访问头的方式去访问对应的URL;访问成功完成后,将网页信息以及URL、页数以及页面等级保存到列表中;当网页都访问完成后,将抓取到网页信息以HTML文件的形式存入到服务器中,并将对应信息存入数据库;

S3. 网页解析:获取Web中通过任务配置配置的解析信息,并获取采集网页后的列表信息进行数据解析,通过的Python的BeautifulSoup库进行页面的解析;在解析时根据页面配置的HTML标签,以标签类型和值方式提取数据及相关标签;解析结束后,将数据存入数据库中;

S4. 数据下载:通过任务列表查看任务结果,在任务结果中可对采集的网页内容进行下载,也可对解析的数据进行查看和下载。

2.根据权利要求1所述的一种基于规则可配置的网页数据解析方法,其特征在于,所述步骤S1的网页采集规则包括是否采集子页、是否采集下一页和是否使用增强模式。

3.根据权利要求1所述的一种基于规则可配置的网页数据解析方法,其特征在于,所述步骤S1的网页解析规则最多为三行,每一行的网页解析规则单独去解析网页,最终合并为结果,并将结果存储到数据库中。

4.根据权利要求3所述的一种基于规则可配置的网页数据解析方法,其特征在于,所述网页解析规则包括四个参数,其中第一个参数用于选择网页解析规则,第二个参数和第四个参数为网页解析规则对应的配置信息,第三个参数为第二个参数配置信息与第四个参数配置信息的关系,所述关系为含有、不含和仅含中的一种。

5.根据权利要求2所述的一种基于规则可配置的网页数据解析方法,其特征在于,所述步骤S2选用增强模式进行网页采集时,如果需要抓取子页,则会打开两个ChromeDriver,一个进行一级页面的访问,另一个进行子页页面的访问;该过程为访问一个一级页面后,通过配置的标签信息,获取到该一级页面的子页URL链接后,对子页进行访问;如果还需要抓取下一页,则通过配置的下一页标签获取到下一页链接进行访问。

6.根据权利要求2所述的一种基于规则可配置的网页数据解析方法,其特征在于,所述步骤S2选用普通模式进行网页采集时,如果需要抓取子页,则先访问一级页面,然后通过配置的标签信息,获取子页链接保存到列表中,再使用协程的方式去访问子页;如果还需要抓取下一页,则通过配置的下一页标签获取到下一页链接进行访问。