1.一种互联网数据智能采集方法,其特征在于:包括以下步骤:
步骤一、数据采集:提供程序输入入口输入采集需求文字,对输入的采集需求文字进行处理得到命名实体识别结果,对命名实体识别结果进行采集规则分类得到需求分类结果;
具体包括以下步骤:
S1、提供程序输入入口,让使用者输入文字来描述采集需求;
S2、使用自然语言处理技术和语义识别技术,将输入内容基于Hmm和Viterbi算法进行中文分词和词性标注,提取名词、动词、副词、数词、形容词,完成命名实体识别;
其中,中文分词和词性标注包括以下步骤:
(1)通过正则检测输入字符串的中文字符,根据邻近词词典对中文字符进行预分词;
(2)基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径,完成中文分词;
(3)根据词性标注语料库对分词结果进行分类,并基于Viterbi算法完成命名实体识别S3、对命名实体识别结果进行采集规则分类:根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签,让使用者自行选择对应的需求分类规则,得到需求分类结果;
步骤二、页面数据解析:根据不同需求分类结果选择对应的解析策略进行页面数据解析,得到解析结果;
步骤三、数据存储:将采集完成的数据进行云端存储。
2.根据权利要求1所述的互联网数据智能采集方法,其特征在于:步骤(3)包括以下步骤:a、通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符;
b、加载相邻词词典进行分词:遍历中文字符串,以字符串每两个相邻的字为一组,在词典中进行匹配;如果两个字在词典中则为一组普通词语,就把词语的第一字保留下来,遍历第二组词;如果第二组词在相邻词典中匹配不到,则认为第一组词为正常词语,否则继续遍历,直到匹配不到内容;
c、分词后通过查词性标注语料库,标上所有可能的词类,组成词性序列,采用Hmm模型将词性序列作为隐藏序列,将词语序列作为观测序列,然后通过Viterbi算法遍历所有词;
每个词都计算各个词性下的一阶HMM值,取值最大的为最终词性,保存该词性和概率,得出最优词性序列;
d、根据得出的最优词性序列,提取出关键信息,最后返回命名实体识别结果,所述关键信息包括采集目标,采集规则,采集内容。
3.根据权利要求1所述的互联网数据智能采集方法,其特征在于:步骤S3中智能采集是自动根据命名实体识别结果进行需求分类,对识别后的采集目标进行网页主体类型识别,具体是运用基于Web结构特征的数据挖掘算法进行网页主体识别,网页主体识别流程为:爬虫系统获取网页源码并解析成 DOM 树,然后对DOM树的节点预处理,提取文本特征,使用TF‑IDF算法计算关键词权重,然后构造分类器,最后通过分类器完成网页类型的自动识别。
4.根据权利要求1所述的互联网数据智能采集方法,其特征在于:采用主体解析方式对智能采集的分类结果进行页面数据解析;采用模板解析的方式对垂直采集的分类结果进行页面数据解析;采用定制解析的方式对定制采集的分类结果进行页面数据解析。
5.根据权利要求4所述的互联网数据智能采集方法,其特征在于:定制解析是由人工确定解析规则或者由使用者自行配置解析规则,可以根据需要采集的字段名称、HTML标签、DOM节点配置解析规则。
6.根据权利要求1所述的互联网数据智能采集方法,其特征在于:步骤三中数据存储包括以下步骤:S1、数据存储:采集者选择存储类型对采集完成的数据进行云端存储,并实时查看当前采集内容和采集效率;所述存储类型包括关系型、文档型、音视频文件型;
S2、数据管理:对采集完成的数据按照规则进行去重、过滤、清洗、转换、分组等,进行数据分析和数据可视化;
S3、数据导出:将采集完成的数据下载下来,并可按照需求类型将数据导出。