DBSCAN,Density-Based Spatial Clustering of Applications with Noise,是一种比较有代表性的基于密度的聚类算法,该算法最初由 Ester等提出。算法主要需要进行两个参数的调节: E_和 Min。其中,E 是指研究对象在给定半径内区域的邻域,Min是确定研究对象是否为核心对象,即在研究对象E邻域内的样本点数大于等于Min,则称该对象为核心对象。DBSCAN算法将集群定义为: 密度相连点的最大集合,能够把具有足够高密度的区域划分为集群最终形成任意形状的聚类。
过程如下:首先任意选择空间一个点,找到该点 E 半径范围内所有点,如果距离在 E 之内的数据点个数大于 Min 。,则这个点被标记为核心样本并被分配一个新的集群标签,然后算法会返回一个密度相连的集合,将这个集合内的所有对象都表示为同一集群。否则则是标记成噪声点,即离群值。DBSCAN 参数的选择对干结果有较大影响,为了较少人工干预的影响,学者提出一种自适应的优化算法,该方法的主要思想是考察数据集本身的统计特性来选择E 值和Min值,根据K-dist图来判断参数的质量,进一步选择E.值和Min值。