更新时间:2024-12-13 04:32:01点击:
一般说到聚类算法,大多数人会想起k-means算法,但k-means算法一般只限于于凹样本集,且必须预先原作k值,而DBSCAN聚类既可以用作凹样本集,也可以用作非凸样本集,也不必须提早原作簇族数。关于凹样本集的说明如下图右图。关于DBSCAN聚类,它是基于密度的聚类,一般通过样本间的密切程度来展开聚类,将密切连接的一类样本化作一类,以后迭代所有样本点。
而DBSCAN聚类有下面几个定义。1.ε-邻域:有一个样本点x1,以x1为圆心,半径为ε的一个范围2.min_sample(大于样本点数):在样本点x1的ε-邻域内的所有样本点总数n;如果n>=min_sample,样本点沦为核心点,否则为非核心点。
而非核心又分成边界点和噪声点。他们的区别在于其ε-邻域内否不存在核心点,如果不存在则为边界点,否则为噪声点。3.密度往返:有样本点x1坐落于x2的ε-邻域内,且x2为核心点,则称之为x1由x2密度往返。
4.密度可约:有样本点x1坐落于x2的ε-邻域内,且x1和x2皆为核心点,则称之为x1和x2密度可约。5.密度连接:有非核心点x1和x2皆在核心点x3的ε-邻域内,则称之为x1和x2密度连接。所有密度连接的样本点构成一个子集。
上图中的红色点为核心点,黑色点为非核心点(还包括边界点和噪音点)。一共有两组密度可约,第一组(左边)有七个核心点,其子集还包括七个核心点以及各个ε-邻域内的所有边界点。
第二组(右边)有五个核心点,其子集还包括五个核心点以及各个ε-邻域内的所有边界点。当所有非噪声点皆在有所不同子集内时,聚类完结。
因此,可以将DBSCAN聚类的流程定义如下:有数据集X={x1,x2,...,xn},设置好min_sample和邻域半径值。1.迭代数据集,将各个样本点间的距离留存到一个矩阵中;2.迭代数据集,将所有的核心点,以及各个核心点邻域内的样本点找到;3.如果核心点间的距离大于半径值,则将两个核心点相连到一起;最后不会构成若干簇族;4.将所有边界点分配到离他最近的核心点;5.以后所有非噪音点已完成分配,算法完结。python构建用的是sklearn库自带的数据集---make_circles。散点图如下。
根据上面定义的流程,开始写出代码啦。首先要获得各个样本点间的距离:defdis(self,va,vb):s=(va-vb)f=sqrt(s*s.T)returnf[0,0]defget_distance(self,dataset):m,n=shape(dataset)[0],shape(dataset)[1]dataset=mat(dataset)dis=mat(zeros((m,m)))foriinrange(m):forjinrange(i,m):dis[i,j]=self.dis(dataset[i,],dataset[j,])dis[j,i]=dis[i,j]returndis然后寻找所有的核心点,以及各个核心点邻域内的所有样本点子集。deffind_core_point(self,dismatrix):core_point=[]core_point_dict={}m=shape(dismatrix)[0]foriinrange(m):ind=[]forjinrange(m):ifdismatrix[i,j]<self.eps:ind.append(j)iflen(ind)>=self.min_sample:core_point.append(i)core_point_dict[str(i)]=indcore_point_core={}forkey,valueincore_point_dict.items():o=[]foriinvalue:ifiincore_point:o.append(i)core_point_core[key]=oreturncore_point,core_point_dict,core_point_core其中core_point是一个列表,存储所有的核心点core_point_dict是一个字典,key为核心点,value为该核心点邻域内的所有样本点子集core_point_core是一个字典,key为核心点,value为该核心点邻域内所有核心点子集接下来就是找到密度往返点子集,也就是在邻域内的核心点子集defjoin_core_point(self,core_point,core_point_dict,core_point_core):labels=array(zeros((1,len(core_point))))num=1result={}result[str(num)]=core_point_core[str(core_point[0])]foriinrange(1,len(core_point)):q=[]forkey,valueinresult.items():r=self.get_same(core_point_core[str(core_point[i])],value)ifr:q.append(key)ifq:n=result[q[0]].copy()n.extend(core_point_core[str(core_point[i])])foriinrange(1,len(q)):n.extend(result[q[i]])delresult[q[i]]result[q[0]]=list(set(n))else:num=num+1result[str(num)]=core_point_core[str(core_point[i])]returnresult再行将所有边界点区分到其最近的核心点一簇并所画出有。
defddbscan(self,data,label):m=shape(data)[0]dismatrix=self.get_distance(data)types=array(zeros((1,m)))number=1core_point,core_point_dict,core_point_core=self.find_core_point(dismatrix)iflen(core_point):core_result=self.join_core_point(core_point,core_point_dict,core_point_core)forkey,valueincore_result.items():k=int(key)foriinvalue:types[0,i]=kforjincore_point_dict[str(i)]:types[0,j]=kprint(types)newlabel=types.tolist()[0]data=array(data)q=list(set(newlabel))print(q)colors=['r','b','g','y','c','m','orange']foriiinq:i=int(ii)xy=data[types[0,:]==i,:]plt.plot(xy[:,0],xy[:,1],'o',markerfacecolor=colors[q.index(ii)],markeredgecolor='w',markersize=5)plt.title('DBSCAN')plt.show()最后的结果图如下:虽然效果不俗,但自己写出的就是较为辣鸡,一共用了10.445904秒;如果知道要用这个算法的话,不引荐大家用自己写出的,事实上sklearn库就有DBSCAN这个函数,只必须0.0284941秒。效果如上右图。
而且代码也只有几行。代码拷贝于(http://itindex.net/detail/58485-%E8%81%9A%E7%B1%BB-%E7%AE%97%E6%B3%95-dbscan)defskdbscan(self,data,label):data=array(data)db=DBSCAN(eps=self.eps,min_samples=self.min_sample,metric='euclidean').fit(data)core_samples_mask=zeros_like(db.labels_,dtype=bool)core_samples_mask[db.core_sample_indices_]=Truelabels=db.labels_n_clusters_=len(set(labels))-(1if-1inlabelselse0)unique_labels=set(labels)colors=['r','b','g','y','c','m','orange']fork,colinzip(unique_labels,colors):ifk==-1:col='k'class_member_mask=(labels==k)xy=data[class_member_mask&core_samples_mask]plt.plot(xy[:,0],xy[:,1],'o',markerfacecolor=col,markeredgecolor='w',markersize=10)plt.title('Estimatednumberofclusters:%d'%n_clusters_)plt.show()关于DBSCAN这个函数有几个要留意的地方:DBSCAN(eps=0.1,min_samples=5,metric='euclidean',algorithm='auto',leaf_size=30,p=None,n_jobs=1)核心参数:eps:float-邻域的距离阈值min_samples:int,样本点要沦为核心对象所必须的?-邻域的样本数阈值其他参数:metric:度量方式,配置文件为欧式距离,可以用于的距离度量参数有:欧式距离“euclidean”曼哈顿距离“manhattan”托比雪夫距离“chebyshev”闵可夫斯基距离“minkowski”带上权重闵可夫斯基距离“wminkowski”标准化欧式距离“seuclidean”马氏距离“mahalanobis”自己定义距离函数algorithm:邻接算法解法方式,有四种:“brute”蛮力构建“kd_tree”KD树构建“ball_tree”球树构建“auto”上面三种算法中做到权衡,自由选择一个数值最差的拟合算法。leaf_size:用于“ball_tree”或“kd_tree”时,暂停建子树的叶子节点数量的阈值p:只用作闵可夫斯基距离和带上权重闵可夫斯基距离中p值的自由选择,p=1为曼哈顿距离,p=2为欧式距离。
如果用于配置文件的欧式距离不必须管这个参数。n_jobs:CPU分段数,若值为-1,则用所有的CPU展开运算DBSCAN聚类的优缺点优点:可以很好的找到噪声点,但是对其不脆弱;可以对给定形状的密集数据展开聚类;缺点:1.必须原作min_sample和eps;有所不同的人组差异十分大;2.数据量相当大时,效率不会尤其较低,发散时间很长;3.对于密度不均匀分布,聚类间差距相当大的数据集效果很差。最后,送来一个基于DBSCAN聚类的笑脸给大家。
可以去这个网站自行尝试。文章到这里就继续告一段落啦,小伙伴们是不是进账满满咧?。
本文来源:米兰app官网登录入口-www.ijiumao.com