1.一种基于大数据分析的采集噪声点挖掘方法,其特征在于,应用于大数据采集系统,所述方法包括:结合AI训练服务器下发的AI训练任务所请求的大数据采集流程的训练源数据采集轨迹从训练冗余反馈流程中确定多个训练冗余反馈数据节点,而后解析出所述多个训练冗余反馈数据节点中的各训练冗余反馈数据节点的冗余采集字段;
挖掘所述训练源数据采集轨迹所覆盖的样本采集路由空间,而后逐一挖掘所述样本采集路由空间中的各样本采集路由节点的样本采集路由字段;
结合所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化。
2.根据权利要求1所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述结合所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化的步骤,包括:将所述多个训练冗余反馈数据节点的冗余采集字段和所述样本采集路由空间的样本采集路由字段进行字段连通,生成第一字段连通矩阵;
确定每个冗余采集字段所相关的冗余采集触发点在所述训练源数据采集轨迹中的第一路由路径,并确定每个样本采集路由字段所相关的样本采集路由节点在所述样本采集路由空间中的第二路由路径;
结合各冗余采集字段所相关的第一路由路径和各样本采集路由字段所相关的第二路由路径,对所述第一字段连通矩阵中的各第一字段连通矩阵单元进行二次映射,生成第二字段连通矩阵;
结合所述第二字段连通矩阵,确定与所述训练源数据采集轨迹相关的采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点,并结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化。
3.根据权利要求2所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述结合所述第二字段连通矩阵,确定与所述训练源数据采集轨迹相关的采集噪声点,包括:将所述第二字段连通矩阵加载到采集噪声点分析AI单元,输出所述采集噪声点的触发路由节点;
确定所述采集噪声点的触发路由节点的样本采集路由字段;
结合所述采集噪声点的触发路由节点的样本采集路由字段及其在所述采集噪声点中的路由路径,基于字段汇聚优化所述第二字段连通矩阵;
将优化完成的第二字段连通矩阵加载到采集噪声点分析AI单元,并遍历结合确定的各样本采集路由节点的样本采集路由字段优化所述第二字段连通矩阵,直到获得所述采集噪声点的AI输出信息。
4.根据权利要求3所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述采集噪声点分析AI单元包括自编码分支和噪声点分析分支,其特征在于,将所述第二字段连通矩阵加载到采集噪声点分析AI单元,输出所述采集噪声点的触发路由节点,包括:将所述第二字段连通矩阵加载到自编码分支,输出对应于采集噪声点的触发路由节点的自编码分布;
依据噪声点分析分支,将对应于采集噪声点的触发路由节点的自编码分布转换为第一噪声决策热力图,在所述第一噪声决策热力图中包含对应于样本采集路由节点序列中的各样本采集路由节点的触发热力值;
结合所述第一噪声决策热力图,输出所述采集噪声点的触发路由节点。
5.根据权利要求2所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,结合所述采集噪声点的触发路由节点的样本采集路由字段及其在所述采集噪声点中的路由路径,基于字段汇聚优化所述第二字段连通矩阵,包括:将所述多个训练冗余反馈数据节点的冗余采集字段、所述样本采集路由空间的样本采集路由字段和所述采集噪声点的触发路由节点的样本采集路由字段进行字段连通,优化所述第一字段连通矩阵;
结合各冗余采集字段所相关的第一路由路径、所述样本采集路由空间的各样本采集路由字段所相关的第二路由路径以及所述采集噪声点的触发路由节点的第二路由路径,对优化完成的所述第一字段连通矩阵中的各第一字段连通矩阵单元进行二次映射,优化所述第二字段连通矩阵。
6.根据权利要求4所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,结合所述第一噪声决策热力图,输出所述采集噪声点的触发路由节点,包括:在所述第一噪声决策热力图中,对热力值进行热力值排布;
确定热力值排布信息中排序前R的热力值,并确定所述排序前R的样本采集路由节点作为所述采集噪声点的触发路由节点的关联路由节点集,并且其中,将优化的所述第二字段连通矩阵加载到所述自编码分支,重复执行上述操作,直到得到所述采集噪声点的AI输出信息为止,包括:结合触发路由节点的关联路由节点集,依次生成其它样本采集路由节点的关联路由节点集;
结合所述采集噪声点中的各样本采集路由节点的关联路由节点集,确定指定数量的采集噪声点。
7.根据权利要求6所述的基于大数据分析的采集噪声点挖掘方法,所述方法还包括:
分别针对所述指定数量的采集噪声点中的各采集噪声点,实施下述步骤:
在输出所述采集噪声点的AI输出信息之后,在由所述自编码分支生成的多个自编码分布中任意确定一个自编码分布作为第一自编码分布和一个自编码分布作为第二自编码分布;
以及确定所述第一自编码分布与所述第二自编码分布之间的匹配度;
如果其中的最大匹配度大于设定匹配度阈值,确定与该匹配度相关的采集噪声点作为与训练源数据采集轨迹相关的采集噪声点,如果其中的最大匹配度不大于设定匹配度阈值,则确定不存在与所述训练源数据采集轨迹相关的采集噪声点的信息;
其中,针对每个采集噪声点,在输出所述采集噪声点的AI输出信息之后,在由所述自编码分支生成的多个自编码分布中任意确定一个自编码分布作为第三自编码分布、一个自编码分布作为第一自编码分布和一个自编码分布作为第二自编码分布;
以及确定所述第三自编码分布与所述第一自编码分布之间的匹配度,并确定所述第三自编码分布与所述第二自编码分布之间的匹配度;
在分析到所述第三自编码分布与所述第一自编码分布之间的匹配度小于第一设定匹配度阈值且所述第三自编码分布与所述第二自编码分布大于第二设定匹配度阈值时,将该采集噪声点确定为仅结合训练源数据采集轨迹生成的采集噪声点。
8.根据权利要求4所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,获取所述冗余采集字段和所述样本采集路由字段以及所述二次映射依据深度学习模型来实现,并且所述方法还包括:依据第一模板训练源数据采集轨迹的大数据对所述深度学习模型、所述自编码分支和所述噪声点分析分支进行权重参数更新,其中,所述第一模板训练源数据采集轨迹的大数据包括多个第一模板训练源数据采集轨迹,每个第一模板训练源数据采集轨迹包括第一模板训练源数据采集轨迹、与所述第一模板训练源数据采集轨迹相关的第一模板样本采集路由空间以及与所述第一模板训练源数据采集轨迹和所述第一模板样本采集路由空间相关的模板采集噪声点,其中依据第一模板训练源数据采集轨迹的大数据对所述深度学习模型、所述自编码分支和所述噪声点分析分支进行权重参数更新,包括:在第一模板训练源数据采集轨迹的大数据中的任意第一模板训练源数据采集轨迹中,结合每个第一模板训练源数据采集轨迹,从该第一模板训练源数据采集轨迹的第一模板训练源数据采集轨迹中获得多个第一模板冗余反馈数据节点,而后解析出多个第一模板冗余反馈数据节点中的各冗余采集字段;
获取所述第一模板训练源数据采集轨迹所相关的第一模板样本采集路由空间,而后逐一挖掘所述第一模板样本采集路由空间中的各样本采集路由节点的样本采集路由字段,其中,每个样本采集路由字段与每个冗余采集字段具有存在字段联系关系的字段变量;
将模板采集噪声点中的多个样本采集路由节点变更为连通样本采集路由节点,生成连通采集噪声点,而后逐一挖掘所述连通采集噪声点中的各样本采集路由节点的样本采集路由字段,其中,所述连通采集噪声点中的各样本采集路由节点的样本采集路由字段与每个冗余采集字段具有存在字段联系关系的字段变量;
将所述多个第一模板冗余反馈数据节点的冗余采集字段、所述第一模板样本采集路由空间的样本采集路由字段和所述连通采集噪声点中的各样本采集路由节点的样本采集路由字段进行字段连通,生成第一训练字段连通矩阵;
确定每个第一模板冗余反馈数据节点的冗余采集字段所相关的冗余采集触发点在所述第一模板训练源数据采集轨迹中的第一路由路径,确定所述第一模板样本采集路由空间中的各样本采集路由字段所相关的样本采集路由节点在所述第一模板样本采集路由空间中的第二路由路径,并确定所述连通采集噪声点中的各样本采集路由节点的样本采集路由字段所相关的样本采集路由节点在所述连通采集噪声点中的第二路由路径;
结合各冗余采集字段所相关的第一路由路径和各样本采集路由字段所相关的第二路由路径,对所述第一训练字段连通矩阵中的各第一字段连通矩阵单元进行二次映射,生成第二训练字段连通矩阵;
结合所述第二训练字段连通矩阵,确定所述连通采集噪声点中的多个连通样本采集路由节点;
计算所述多个连通样本采集路由节点与模板样本采集路由节点之间的第一代价信息;
至少结合所述第一代价信息,对所述深度学习模型、所述自编码分支和所述噪声点分析分支的权重参数信息进行更新。
9.根据权利要求2‑8中任意一项所述的基于大数据分析的采集噪声点挖掘方法,其特征在于,所述结合所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点对所述AI训练服务器进行大数据采集流程优化的步骤,包括:将所述采集噪声点以及与所述采集噪声点相关的多个连通采集噪声点作为一个连通噪声点簇,从大数据采集模板数据库中确定关联于所述连通噪声点簇的多个大数据采集控制数据;
结合所述多个大数据采集控制数据的采集项范围和对所述多个大数据采集控制数据的大数据采集频繁项的提取,生成所述连通噪声点簇对应的频繁项字段分布数据;
结合所述连通噪声点簇的标签字段分布和所述连通噪声点簇内的大数据采集频繁项的分布频次,生成频繁项噪声字段分布数据;
基于所述频繁项字段分布数据和所述频繁项噪声字段分布数据,生成所述连通噪声点簇对应的大数据采集流程优化信息,以将所述大数据采集流程优化信息作为优化依据输出给开发人员进行优化提示;
其中,所述结合所述多个大数据采集控制数据的采集项范围和对所述多个大数据采集控制数据的大数据采集频繁项的提取,生成所述连通噪声点簇对应的频繁项字段分布数据,包括:对所述多个大数据采集控制数据进行频繁项提取,得到所述大数据采集控制数据中在历史采集控制周期的大数据采集频繁项;
对所述多个大数据采集控制数据中提取的大数据采集频繁项进行频繁定位点标注,将不同大数据采集控制数据中提取的相同频繁定位点的大数据采集频繁项进行组合;
结合所述相同频繁定位点的大数据采集频繁项在各个大数据采集控制数据中的分布特征,生成所述大数据采集频繁项的频繁项分布特征;
结合所述各个大数据采集控制数据的采集项范围以及所述大数据采集频繁项的频繁项分布特征,生成每个所述大数据采集频繁项的当前字段分布数据;
基于每个所述大数据采集频繁项的当前字段分布数据,生成所述连通噪声点簇对应的频繁项字段分布数据;
其中,所述结合所述连通噪声点簇的标签字段分布和所述连通噪声点簇内的大数据采集频繁项的分布频次,生成频繁项噪声字段分布数据,包括:结合所述连通噪声点簇在所述大数据采集控制数据中的分布特征信息以及提取的所述大数据采集控制数据中在历史采集控制周期的大数据采集频繁项,生成所述连通噪声点簇内的大数据采集频繁项的分布频次;
结合所述连通噪声点簇在所述大数据采集控制数据中的分布特征信息和提取所述大数据采集控制数据的爬取脚本端的爬取字段类别属性,生成所述连通噪声点簇的标签字段分布;
结合所述连通噪声点簇的标签字段分布和所述连通噪声点簇内的大数据采集频繁项的分布频次,生成频繁项噪声字段分布数据。
10.一种大数据采集系统,其特征在于,所述大数据采集系统包括处理器和机器可读存储介质,所述机器可读存储介质中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现权利要求1‑9中任意一项的基于大数据分析的采集噪声点挖掘方法。