1.一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,包括以下步骤:步骤1)、数据预处理:将从车载传感器设备获取到的最原始轨迹数据中移除异常数据,同时从最原始轨迹数据集中提取GPS坐标属性作为轨迹的语义标签;然后将原始轨迹数据进行高斯投影,将原始轨迹中的经纬度坐标转化为大地坐标,从而完成对最原始轨迹数据的降维处理;
步骤2)、对偶图转换:根据降维处理后的最原始轨迹数据将道路网中两个交叉路口之间的道路段建模为一个节点,并将每两个节点之间的交叉路口建模为节点间的连线,从而将道路网转换为对偶图;随机选择一个节点,记做监听节点,并将该节点设置为当前节点,将其邻居节点记做传播节点;
当前节点的每一个传播节点随机选择概率正比于在当前节点标签序列中出现概率Pi的标签,并把该标签发送到监听节点;
其中,listi表示当前标签序列中选中标签出现的次数,∑listi表示当前标签序列中所有标签出现次数的总和,0<Pi<=1;
当前节点从传播节点传播的标签信息集中选择出现概率最大的标签添加到监听节点存储的标签列表中,并将出现概率最大的标签作为本次迭代中的新标签;
重复上述迭代过程使标签在不断的遍历过程中传播,直至收敛或遍历达到设定的次数,结束迭代;
步骤3)、初始化所有节点的标签信息,使得每个节点拥有唯一的标签,并为每一个节点设置一个存储历史标签的序列,然后对初始化后的标签信息通过SLPA标签传播方法进行标签传播,完成标签聚类;
步骤4)、对存储历史标签的序列进行泛化处理:如果车辆身份识别号的属性列标识为准标识符列,则对该车辆身份识别号进行全局泛化处理;如果车辆身份识别号的属性列标识不是准标识符列,则判断车辆身份识别号的属性列标识是否为兴趣点,如果是兴趣点则对兴趣点处的位置坐标进行局部泛化处理;
具体的,4.1使用k匿名处理对车辆身份识别号进行全局泛化处理;
4.1.1将车辆身份识别号的属性列标识为准标识符列;
4.1.2结合车辆原始轨迹数据中车辆身份标识号可以暴露该车辆身份信息的特点,对车辆身份识别号进行全局泛化处理,全局泛化表示对同一组数据一次性进行相同的泛化操作;全局泛化处理后进入步骤5);
4.2使用k匿名处理对兴趣点处的位置坐标进行局部泛化处理;兴趣点指结合车辆轨迹数据,在同一位置在标签序列中出现的次数超过预先设置阈值的采样点;同一位置指经度坐标值和纬度坐标值相等;
4.2.1在标签序列中对每一个位置点的取值个数进行统计,并取出统计个数大于等于阈值10的兴趣点坐标;
4.2.2取出的统计个数大于等于阈值10的兴趣点坐标按照统计个数的大小进行降序排列;
4.2.3按照步骤4.2.2中的排列顺序,选择统计个数最大的兴趣点坐标进行首次泛化处理;
4.2.4检测首次泛化后的标签序列,若不符合泛化处理结果:每条记录数据至少与其他k‑1条数据的属性值相同,跳转至步骤4.2.1,否则跳转至步骤4.2.5;
4.2.5进行迭代计算,直到所有大于等于阈值的兴趣点坐标全部完成局部泛化处理即可,否则跳转至步骤4.2.2;
4.3使用k匿名处理对普通点的位置坐标进行全局泛化处理,全局泛化处理后进入步骤
5);
步骤5)、去除低频标签:根据步骤3)标签序列中以及步骤4)泛化处理后的标签聚类结果,如果标签聚类结果中出现的频率低于预先设定的阈值,则删除该标签;否则直接输出最终聚类结果。
2.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,通过高斯投影坐标转换工具将原始轨迹数据进行高斯投影。
3.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,普通点指位置坐标数据中除了兴趣点之外的点。
4.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,局部泛化具体为同一组数据中的不同子集进行不同的泛化操作。