1.一种基于改进k-means算法的菜鸟驿站选址方法,其特征在于:所述方法包括以下步骤:
1)首先获取某小区用户的地址数据集,根据用户在最近一个月内所产生快递订单量进行分层抽样;
2)将提取到的用户地址数据组成一个新的初始特征样本数据集,记为U={u1,u2,...,uN},N为样本数据集的元素个数,初始化需要建设菜鸟驿站的数目K;
3)计算任意两个样本点之间的欧氏距离,过程如下:
3.1)从数据集中U中取出一个目标样本点ui,i={1,2,...,N};
3.2)再从数据集U中取出一个不同于ui的样本点uj,j={1,2,...,N};
3.3)计算两个样本点ui和uj之间的距离dist(ui,uj),其中dist(ui,uj)=||ui-uj||2;
3.4)迭代步骤3.2)和步骤3.3)直到uj取完数据集中除ui之外的所有样本点;
3.5)更新目标样本点ui,即从数据集中取出与上一次不同的目标样本点ui′,令ui=ui′,迭代步骤3.2)、3.3)和3.4),直到ui取到数据集中的所有样本点为止;
4)计算样本数据对象之间的平均距离 其中 表示从N个样本点中任意抽取两个的组合数;
5)定义P(ui,Md)为样本点ui关于数据对象平均距离的参考概率密度,计算公式为单位阶跃函数;
6)遍历计算所有样本点参考概率密度,并将计算的结果放入一个新的集合D,记D={d1,d2,…,di,…,dN|di=P(ui,Md)};
7)根据样本点的参考概率密度集合D中元素的大小关系,找到数值最大元素所对应的用户点um,将um作为一个初始聚类中心点;
8)更新样本数据集U,即将与um的距离小于数据对象平均距离的样本点的从集合U中删除,将剩下的样本点组成新的用户数据集合U′,令U=U′,迭代步骤3)至步骤7),直到找到需要的k个初始聚类中心;
9)将找到的k个初始聚类中心作为聚类的初始均值向量{s1,s2,…sk};
10)计算样本点ui到各均值向量sn的距离:dist(ui,sn)=||ui-sn||2,根据距离最近的均值向量确定ui的簇标记:λi=argminn∈{1,2,…,k}dist(ui,sn),将样本点ui划入相应的簇
11)更新均值向量sn,计算新的均值向量 其中Cn表示当前簇内元素的集合,|Cn|表示簇内元素的个数,若sn′≠sn,则令sn=sn′,否则,保持当前的均值向量不变;
12)迭代步骤10)和步骤11),直到当前的均值向量sn不再发生变化,即可将聚类后的簇划分出来,记为C={C1,C2,…,Ck},此时最终的均值向量sn所对应的坐标位置,即为菜鸟驿站建设地的最优可行点。