1.海量数据下并行Skyline处理方法,其特征是,包括:
分配web数据到worker节点:将web数据上传到HDFS中,通过Hadoop的文件系统HDFS将数据进行切分,将切分的数据块分配到worker节点,以进行并行计算;
worker节点进行Skyline计算:通过本地Skyline计算阶段得到本地候选Skyline服务,然后将每个本地Skyline候选服务通过网络传送到master主节点,经过master节点Skyline计算,最终得到全局Skyline服务;
master节点Skyline计算:汇总所有worker节点的候选Skyline服务,再次通过改进的Skyline算法,将所有的数据分成4个区域,将区域1和区域3的数据点进行合并,通过Spark算子将Bitmap算法逻辑写入,计算区域1和区域3最终Skyline point,这样得到全局Skyline服务。
2.如权利要求1所述的海量数据下并行Skyline处理方法,其特征是,通过解析得到QoS向量集合,然后根据某种分配策略生成web服务对应的key,整个web服务数据就会被分成不同的组,具有相同key值的组的web数据被分配到同一个节点进行Skyline point计算。
3.如权利要求1所述的海量数据下并行Skyline处理方法,其特征是,本地Skyline计算部分处理分配到的web服务数据,通过Spark的算子,找出本地Skyline服务数据中QoS属性最小的点,这个点是Skyline point,然后在最小点处只进行一次区域划分。
4.如权利要求1所述的海量数据下并行Skyline处理方法,其特征是,将数据集划分成4个区域,其中区域1和区域3的数据支配区域2和区域4,合并最终的计算区域,将区域1和区域3的数据点进行合并,通过Spark算子将Bitmap算法逻辑写入,计算区域1和区域3的最终Skyline point点。
5.如权利要求1所述的海量数据下并行Skyline处理方法,其特征是,将全局Skyline服务输出给用户进行选择。
6.海量数据下并行Skyline处理系统,其特征是,包括:
web数据到worker节点分配模块:将web数据上传到HDFS中,通过Hadoop的文件系统HDFS将数据进行切分,将切分的数据块分配到worker节点,以进行并行计算;
worker节点进行Skyline计算模块:通过本地Skyline计算阶段得到本地候选Skyline服务,然后将每个本地Skyline候选服务通过网络传送到master主节点,经过master节点Skyline计算,最终得到全局Skyline服务;
master节点Skyline计算模块:汇总所有worker节点的候选Skyline服务,再次通过改进的Skyline算法,将所有的数据分成4个区域,将区域1和区域3的数据点进行合并,通过Spark算子将Bitmap算法逻辑写入,计算区域1和区域3最终Skyline point,这样得到全局Skyline服务。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现权利要求1-5任一所述的海量数据下并行Skyline处理方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1-5任一所述的海量数据下并行Skyline处理方法的步骤。