這次介紹的是Alex和Alessandro于2014年發(fā)表在的Science上的一篇關(guān)于聚類的文章[13]，該文章的基本思想很簡(jiǎn)單，但是其聚類效果卻兼具了譜聚類(Spectral Clustering)[11,14,15]和K-Means的特點(diǎn)，著實(shí)激起了我的極大的興趣，該聚類算法主要是基于兩個(gè)基本點(diǎn)：

聚類中心的密度高于其臨近的樣本點(diǎn)的密度
聚類中心與比其密度還高的聚類中心的距離相對(duì)較大

基于這個(gè)思想，聚類過(guò)程中的聚類中心數(shù)目可以很直觀的選取，離群點(diǎn)也能被自動(dòng)檢測(cè)出來(lái)并排除在聚類分析外。無(wú)論每個(gè)聚類的形狀是什么樣的，或者樣本點(diǎn)的維度是多少，聚類分析的結(jié)果都能令人很滿意。下面我會(huì)主要基于這篇文章來(lái)詳述該聚類算法的來(lái)龍去脈，并簡(jiǎn)單回顧下相關(guān)的聚類算法。

聚類算法回顧

眾所周知，聚類分析目的在于根據(jù)樣本之間的相似性將樣本劃為不同的類簇，但聚類的科學(xué)定義貌似在學(xué)術(shù)界還未達(dá)成共識(shí)。論文[17]對(duì)聚類算法進(jìn)行了綜述，發(fā)現(xiàn)有好多聚類算法我還沒學(xué)習(xí)。在K-means和K-medoids中，每個(gè)類簇都由一組到各自的聚類中心距離最近的數(shù)據(jù)組成。兩者的目標(biāo)函數(shù)形式為各樣本點(diǎn)到對(duì)應(yīng)的聚類中心的距離之和，經(jīng)過(guò)反復(fù)的更新聚類中心和重新為樣本點(diǎn)分配聚類中心的過(guò)程直至收斂，如圖1所示。兩者的區(qū)別在于，K-means的聚類中心為屬于該類簇的所有樣本點(diǎn)的均值，而K-medoids的聚類中心為該類簇中離所有樣本點(diǎn)的聚類之和最小的樣本點(diǎn)。這兩者聚類算法實(shí)現(xiàn)起來(lái)都非常簡(jiǎn)單，對(duì)于緊湊型的和呈超球體狀分布的數(shù)據(jù)非常適用。但兩者的缺陷也很明顯：

缺乏能確定類簇?cái)?shù)目和進(jìn)行初步劃分的有效機(jī)制；
迭代優(yōu)化的策略無(wú)法保證全局最優(yōu)解；
對(duì)離群點(diǎn)和噪聲非常敏感

　　在基于概率密度的聚類算法中，我們會(huì)假設(shè)各類簇由不同的概率密度函數(shù)產(chǎn)生(如圖2)，而每個(gè)樣本點(diǎn)則是以不同的權(quán)重服從這些概率分布的。很不幸的是，在這類算法中用最大似然估計(jì)求解參數(shù)往往不可行，只能用迭代求解的方式獲得一個(gè)次優(yōu)解，而期望最大化(Expectation Maximization,EM)是最常用的一個(gè)策略。在這類算法中，最典型的莫過(guò)于高斯混合模型(Gaussian Mixture Model,GMM)[12]。這類算法的準(zhǔn)確度取決于預(yù)先定義的概率分布能否很好的擬合訓(xùn)練數(shù)據(jù)，但問(wèn)題在于很多情況下我們無(wú)法知曉數(shù)據(jù)在整體上或者局部上到底近似于什么樣的概率分布。 ?

　　基于局部密度的聚類算法可以很容易地檢測(cè)出任意形狀的類簇。在DBSCAN[10]中，需要用戶給定密度閾值和領(lǐng)域半徑作為參數(shù)，在領(lǐng)域半徑內(nèi)的密度小于該閾值的樣本點(diǎn)被視為噪聲點(diǎn)，剩下的密度較高的非連通區(qū)域則被分配到不同的類簇中，其偽代碼如下所示。但是選擇合適的密度閾值并不是那么容易的事情，有關(guān)的參數(shù)估計(jì)建議可參見[3]。DBSCAN的優(yōu)點(diǎn)[3]總結(jié)如下：

無(wú)需預(yù)先指定類簇的數(shù)目；
可以發(fā)現(xiàn)任意形狀的類簇，如圖3所示；
可以檢測(cè)出噪聲點(diǎn)，且對(duì)噪聲點(diǎn)魯棒性較強(qiáng)；
除了邊界點(diǎn)外，聚類結(jié)果(核心點(diǎn)與噪聲點(diǎn))與樣本點(diǎn)的遍歷順序無(wú)關(guān)

DBSCAN的缺點(diǎn)[3]總結(jié)如下：

針對(duì)邊界點(diǎn)而言，DBSCAN的聚類結(jié)果并非完全確定的。幸運(yùn)的是這種情況并非頻繁出現(xiàn)，而且對(duì)聚類的結(jié)果影響很小。如果把邊界點(diǎn)也當(dāng)成噪聲點(diǎn)處理，那么聚類結(jié)果就具有確定性。
聚類結(jié)果依賴于距離度量規(guī)則。最常用的歐式距離在高維空間里由于“維度災(zāi)難”幾乎無(wú)法發(fā)揮有效作用，使得設(shè)定合適的搜尋半徑更為困難。
不適用于密度差異很大的數(shù)據(jù)集，因?yàn)榇藭r(shí)各個(gè)類簇的搜尋半徑和密度閾值都不相同，使得參數(shù)的選取更為困難。

    DBSCAN(D, eps, minPts)
//eps:search radius
//minPts:density threshold
   C = 0
   for each unvisited point P in dataset D
      mark P as visited
      NeighborPts = regionQuery(P, eps)
      if sizeof(NeighborPts) < minPts
         mark P as NOISE
      else
         C = next cluster
         expandCluster(P, NeighborPts, C, eps, MinPts)
          
expandCluster(P, NeighborPts, C, eps, minPts)
   add P to cluster C
   for each point Q in NeighborPts 
      if Q is not visited
         mark Q as visited
         NeighborPts' = regionQuery(Q, eps)
         if sizeof(NeighborPts') >= minPts
            NeighborPts = NeighborPts joined with NeighborPts'
      if Q is not yet member of any cluster
         add Q to cluster C
          
regionQuery(P, eps)
   return all points within P's eps-neighborhood (including P)

　　基于均值漂移(Mean-shift)[5,7,9]的聚類算法則無(wú)需為搜索半徑和密度閾值的設(shè)定而煩惱，不過(guò)也面臨bandwidth的選取問(wèn)題，關(guān)于怎么設(shè)定bandwidth的研究可參見[8,16]。Mean-sift的基本思路就是從初始點(diǎn)出發(fā)，以梯度上升的方式不斷尋找核密度估計(jì)函數(shù)的局部最大值直至收斂(如圖4(a)所示)，這些駐點(diǎn)代表分布的模式。在基于mean-shift的聚類算法中，依次以每一個(gè)樣本點(diǎn)作為mean-shift的起始點(diǎn)，然后將其移至核密度估計(jì)函數(shù)的某個(gè)局部駐點(diǎn)，最后近似收斂到同一個(gè)駐點(diǎn)的所有樣本被劃分至同一個(gè)類簇，如圖4(b)所示。總體而言，在基于密度的聚類算法中，類簇可被定義為收斂到相同的密度分布函數(shù)局部極大值的樣本點(diǎn)的集合。?

基于密度峰值和距離的聚類算法

該聚類算法的假設(shè)前提是聚類中心周圍的樣本點(diǎn)的局部密度低于聚類中心的局部密度，并且聚類中心與比其局部密度更高的點(diǎn)之間的距離相對(duì)較大。其聚類效果與DBSCAN和mean-shift類似，可以檢測(cè)出非球體的類簇。作者號(hào)稱可以 自動(dòng) 找到類簇的數(shù)目，雖然文中給了一點(diǎn)相關(guān)的尋找聚類數(shù)目的思路，但是提供的Matlab代碼中沒有實(shí)現(xiàn)該思路，還是需要人工選擇聚類中心，所以在相關(guān)評(píng)論[2]中“自動(dòng)”一詞遭到了質(zhì)疑。與mean-shift類似，聚類中心定義為局部密度最大值點(diǎn)；與mean-shift不同的是，聚類中心是某個(gè)特定樣本點(diǎn)，并且無(wú)需在核函數(shù)定義的空間內(nèi)針對(duì)每個(gè)樣本點(diǎn)顯式求解局部密度最大的點(diǎn)。給定數(shù)據(jù)集\(\mathcal{S}=\{x_i|x_i\in\mathbb{R}^n,i=1,\cdots,N\}\)，對(duì)于每一個(gè)樣本點(diǎn)\(x_i\)計(jì)算兩個(gè)量化值：局部密度值\(\rho_i\)和距離密度更高的樣本點(diǎn)的聚類\(\delta_i\)。\(x_i\)的局部密度\(\rho_i\)定義如為： \begin{equation} \rho_i=\sum_{j=1}^N\chi(d_{ij}-d_c) \end{equation} 其中\(zhòng)(d_c\)為截?cái)嗑嚯x(cutoff distance)，其實(shí)就是領(lǐng)域的搜索半徑；\(d_{ij}\)為\(x_i\)與\(x_j\)之間的距離；函數(shù)\(\chi(x)\)定義為 \begin{equation} \chi(x)=\begin{cases} 1,& \text{if \(x<0\)};\\ 0,& otherwise. \end{cases} \end{equation} 根據(jù)這篇文章的評(píng)論[2],發(fā)現(xiàn)還有兩個(gè)密度的度量方法也是很有價(jià)值的.第一個(gè)是用樣本點(diǎn)與最近的\(M\)個(gè)鄰居的距離的均值的負(fù)數(shù)來(lái)描述;另一個(gè)就是高斯核函數(shù)來(lái)度量,會(huì)比用截?cái)嗑嚯x度量魯棒性更強(qiáng)一些. \begin{equation} \rho(x_i)=-\frac{1}{M}\sum_{j:j\in KNN(x_i)}d_{ij} \label{eq:avg_kernel} \end{equation} \begin{equation} \rho(x_i)=\sum_{j=1}^N\exp(-\frac{d_{ij}^2}{\sigma}) \label{eq:gauss_kernel} \end{equation} 實(shí)際上，上述的\(\rho_i\)定義的就是與\(x_i\)之間的距離小于\(d_c\)的樣本點(diǎn)的數(shù)目。距離\(\delta_i\)度量\(x_i\)與比其密度高的最近的樣本點(diǎn)之間的距離；如果\(\rho_i\)為最大值，則\(\delta_i\)為與離\(x_i\)最遠(yuǎn)樣本之間的距離： \begin{equation} \delta_i=\begin{cases} \underset{j:\rho_j>\rho_i}{\min}(d_{ij}), & \text{if \(\exists j,\rho_j>\rho_i\)};\\ \underset{j}{\max}(d_{ij}), & otherwise. \end{cases} \end{equation} 對(duì)于密度值為局部或全局最大的樣本點(diǎn)而言，它們的\(\delta_i\)會(huì)比其他樣本點(diǎn)的\(\delta_j\)值要大很多(如圖5所示)，因?yàn)榍罢叽砭植棵芏茸畲蟮臉颖军c(diǎn)之間的距離，而后者代表樣本點(diǎn)與其對(duì)應(yīng)的局部密度最大的樣本點(diǎn)之間的距離。因此，那些\(\delta\)值很大的樣本點(diǎn)也很有可能就是聚類中心。?

　　論文中給出了一個(gè)示例，如圖6(a)所示，圖中一共有28個(gè)樣本點(diǎn)，樣本點(diǎn)按照密度降序排列。從圖中大致可以觀察到有兩個(gè)類簇，剩下的26、27和28號(hào)樣本點(diǎn)可被視為離群點(diǎn)。在圖6(b)中，分別以對(duì)判定是否為聚類中的最關(guān)鍵信息\(\rho\)和\(\delta\)為橫縱坐標(biāo)繪制決策圖(decision graph)，看到1和10號(hào)樣本點(diǎn)位于決策圖的最右上角。9和10號(hào)樣本點(diǎn)雖然密度值\(\rho\)非常接近，但是\(\delta\)值卻相差很大；被孤立的26、27和28號(hào)樣本點(diǎn)雖然\(\delta\)值較大，但是\(\rho\)值很小。綜上可知，只有\(zhòng)(\rho\)值很高并且\(\delta\)相對(duì)較大的樣本點(diǎn)才會(huì)是聚類中心。

　　在找出聚類中心后，接下來(lái)就是將所有剩下的點(diǎn)劃分到比其密度更高且最近的樣本點(diǎn)所屬的類簇中，當(dāng)然經(jīng)過(guò)這一步之后暫時(shí)會(huì)為噪聲點(diǎn)也分配到類簇中。在聚類分析中，經(jīng)常還會(huì)進(jìn)一步分析類簇分配的可靠性。在DBSCAN中，只考慮了密度高于密度閾值的可靠性高一些的樣本點(diǎn)，但是會(huì)出現(xiàn)較低密度的類簇被誤認(rèn)為噪聲的情況。文中取而代之的是為每個(gè)類簇引入邊界區(qū)域的概念。邊界區(qū)域的密度值\(\rho_b\)會(huì)根據(jù)屬于這個(gè)類簇并且與屬于其他類簇的樣本點(diǎn)之間的距離小于\(d_c\)的成員計(jì)算出來(lái)。對(duì)于每個(gè)類簇中的所有樣本點(diǎn)，密度值高于\(\rho_b\)的被視為類簇的核心組成部分(cluster core)，剩下的則被視為該類簇的光暈(cluster halo)，類簇光暈中則包含噪聲點(diǎn)。論文中給出了一個(gè)聚類的結(jié)果，如圖7所示。

　　鄰域搜索半徑\(d_c\)到底如何取值呢？\(d_c\)顯然是對(duì)聚類結(jié)果又影響的，這一點(diǎn)我們僅需要考慮兩個(gè)最極端的情形就明白了。如果\(d_c\)太大，那么每個(gè)數(shù)據(jù)點(diǎn)的密度值都近似相等，導(dǎo)致所有數(shù)據(jù)點(diǎn)被劃分至同一個(gè)類簇中；如果\(d_c\)太小，每個(gè)類簇包含的樣本點(diǎn)會(huì)很少，很有可能出現(xiàn)同一個(gè)類簇被分割成好幾部分的情況。另一方面，不同的數(shù)據(jù)集中數(shù)據(jù)點(diǎn)之間的密集程度不同，那么想給出一個(gè)適合所有數(shù)據(jù)集的\(d_c\)是不可能的。作者在文中提出，合適的\(d_c\)應(yīng)該使數(shù)據(jù)點(diǎn)的平均近鄰數(shù)目占整個(gè)數(shù)據(jù)集規(guī)模的比例為\(\tau,(\tau=1\%\sim 2\%)\)。如此一來(lái)，參數(shù)\(\tau\)就獨(dú)立于特定數(shù)據(jù)集了。針對(duì)每個(gè)數(shù)據(jù)集，我們都可以尋找一個(gè)比較合適的\(d_c\)。結(jié)合作者給出的Matlab代碼，分析后可知具體的計(jì)算方法如下：取出對(duì)稱的距離矩陣的上三角所有的\(M=N(N-1)/2\)個(gè)元素，然后對(duì)其進(jìn)行升序排列\(zhòng)(d_1\leq d_2\leq \cdots\leq d_M\)。為了保證平均每個(gè)數(shù)據(jù)點(diǎn)的近鄰點(diǎn)數(shù)目所占比例為\(\tau\)，那么只要保證小于\(d_c\)的距離數(shù)目所占比例也為\(\tau\)即可，因此取\(d_c=d_{round(\tau M)}\)。類簇的數(shù)目該如何確定呢？作者給Matlab代碼中，聚類中心是需要人工選定的，很多讀者因此質(zhì)疑文中的"it is able to detect nonspherical clusters and to automatically find the correct number of clusters"，是不是有種被欺騙的感覺。不過(guò)作者在文中也給出了一個(gè)簡(jiǎn)單選擇類簇的數(shù)目，雖然我也覺得該方法存在一些問(wèn)題，但總歸還是給出了解決方案的。由前面解釋的論文的兩個(gè)基本立足點(diǎn)可知，聚類中心對(duì)應(yīng)的\(\rho\)和\(\delta\)都是比較大的。作者為每個(gè)樣本點(diǎn)\(x_i\)引入\(\gamma_i=\rho_i\delta_i\)，然后將所有的\(\gamma_i\)降序排列后顯示在圖9(a)。如果分別對(duì)\(\rho\)和\(\delta\)先做歸一化處理后會(huì)更合理一些，這樣也會(huì)使得兩者參與決策的權(quán)重相當(dāng)。因?yàn)槿绻鸤(\rho\)和\(\delta\)的不在一個(gè)數(shù)量級(jí)，那么必然數(shù)量級(jí)小帶來(lái)的的影響會(huì)很小。接下來(lái)怎么辦呢？作者依然沒有給出具體的解決方案。因?yàn)檎w而言，\(\gamma\)的值在大多數(shù)情況下還是很相近的，差異比較大的就是那幾個(gè)聚類中心，我覺得可以從異常檢查(Anomaly Detection)的角度去尋找這個(gè)跳躍點(diǎn)。最簡(jiǎn)單方法，可以根據(jù)相鄰\(\gamma\)的值構(gòu)建一個(gè)高斯分布\(\mathbb{N}(\mu,\sigma^2)\)，根據(jù)最大似然參數(shù)估計(jì)法，該高斯分布的參數(shù)只需掃描兩遍\(\gamma\)的值即可，所以模型還是很效率還是很高的。有了這個(gè)模型后，我們從后往前掃描\(\gamma\)的值，如果發(fā)現(xiàn)某個(gè)值的左邊或右邊的累積概率(如圖8的左右兩側(cè)藍(lán)色區(qū)域)小于閾值(比如0.005)時(shí)就判定找到了異常的跳躍點(diǎn)，此時(shí)就能大致確定類簇的數(shù)目了。若想進(jìn)一步學(xué)習(xí)如何利用高斯分布進(jìn)行異常檢測(cè)可參見[1]。我們都知道高斯分布的概率密度函數(shù),可是高斯分布的累積分布函數(shù)(Cumulative Distribution Function)不存在初等函數(shù)的表達(dá)形式,那該如何是好?查找了半天資料,也沒找到如何數(shù)值逼近的原理說(shuō)明,不過(guò)搜到了一段用java編寫的基于 Hart Algorithm 近似計(jì)算標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)的代碼[4]。寥寥數(shù)行java代碼就搞定了,但是我暫時(shí)沒理解為什么這么做是可行的。我將其轉(zhuǎn)換成了如下的C++代碼,然后將輸出結(jié)果和維基百科上的Q函數(shù)表[6]中的數(shù)據(jù)對(duì)比分析(注意\(1-Q(x)=\Phi(x)\)),發(fā)現(xiàn)結(jié)果和預(yù)期的一模一樣,簡(jiǎn)直把我驚呆了。

    double CDFofNormalDistribution(double x)
{
	const double PI=3.1415926;
	double p0=220.2068679123761;
	double p1=221.2135961699311;
	double p2=112.0792914978709;
	double p3=33.91286607838300;
	double p4=6.373962203531650;
	double p5=.7003830644436881;
	double p6=.03326249659989109;

	double q0=440.4137358247552;
	double q1=793.8265125199484;
	double q2=637.3336333788311;
	double q3=296.5642487796737;
	double q4=86.78073220294608;
	double q5=16.06417757920695;
	double q6=1.755667163182642;
	double q7=0.08838834764831844;

	double cutoff=7.071;//10/sqrt(2)
	double root2pi=2.506628274631001;//sqrt(2*PI)

	double xabs=abs(x);

	double res=0;
	if(x>37.0) 
		res=1.0;
	else if(x<-37.0)
		res=0.0;
	else
	{
		double expntl=exp(-.5*xabs*xabs);
		double pdf=expntl/root2pi;
		if(xabs<cutoff)
			res=expntl*((((((p6*xabs + p5)*xabs + p4)*xabs + p3)*xabs+ \
				p2)*xabs + p1)*xabs + p0)/(((((((q7*xabs + q6)*xabs + \
				q5)*xabs + q4)*xabs + q3)*xabs + q2)*xabs + q1)*xabs+q0);
		else
			res=pdf/(xabs+1.0/(xabs+2.0/(xabs+3.0/(xabs+4.0/(xabs+0.65)))));
	}
	if(x>=0.0)
		res=1.0-res;
	return res;
}

此外，作者聲稱根據(jù)隨機(jī)均勻分布生成的數(shù)據(jù)對(duì)應(yīng)的\(\gamma\)服從冪律分布(Power laws)，但是真正具備聚類中心的數(shù)據(jù)集是不存在這種情況的。很多現(xiàn)象其實(shí)都是近似服從冪律分布的，尤其適用于大多數(shù)事件的規(guī)模很小但少數(shù)事件規(guī)模很大的場(chǎng)合，不過(guò)作者在此并未給出該定論的出處，所以同樣這一點(diǎn)遭到了很多讀者的質(zhì)疑。我猜目前只是作者根據(jù)一些實(shí)驗(yàn)數(shù)歸納出來(lái)的，只能說(shuō)是靠不完全統(tǒng)計(jì)得到的經(jīng)驗(yàn)，沒有實(shí)質(zhì)性的理論依據(jù)。也就是\(\gamma\approx cr^{-k}+\epsilon\)，其中\(zhòng)(r\)為\(\gamma\)的排名序號(hào)，那么\(\log\gamma\)和\(\log r\)之間應(yīng)該近似呈現(xiàn)線性關(guān)系，如圖9(b)所示。如果作者的猜測(cè)正確的話，我們不妨在聚類前匯出如\(\log\gamma\)和\(\log r\)的關(guān)系圖，借此判斷聚類的復(fù)雜性，或者說(shuō)在該數(shù)據(jù)集上進(jìn)行聚類的結(jié)果可靠性如何。

　　最后,基于這篇文章思想,我最終用C++代碼實(shí)現(xiàn)了一個(gè)比較完整的聚類算法,并作為我在GitHub上的first repository上傳到了GitHub上面,有需要的請(qǐng)前往 https://github.com/jeromewang-github/cluster-science2014 下載,歡迎大家找出bug和提供修改意見!

References

[1] Anomaly detection. http://www.holehouse.org/mlclass/15_Anomaly_Detection.html.
[2] Comments on clustering by fast search and find of density peaks. http://comments.sciencemag.org/content/10.1126/science.1242072.
[3] Dbscan. http://en.wikipedia.org/wiki/DBSCAN.
[4] Hart algorithm for normal cdf. http://www.onedigit.org/Home/quantitative-finance/hart-algorithm-for-normal-cdf.
[5] Mean-shift. http://en.wikipedia.org/wiki/Mean-shift.
[6] Q-function. http://en.wikipedia.org/wiki/Q-function.
[7] Dorin Comaniciu and Peter Meer. Mean shift: A robust approach toward feature space analysis. Pattern Analysis and Machine Intelligence, IEEE-Transactions on, 24(5):603–619, 2002.
[8] Dorin Comaniciu, Visvanathan Ramesh, and Peter Meer. The variable bandwidth mean shift and data-driven scale selection. In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, volume 1, pages 438–445. IEEE, 2001.
[9] Konstantinos G. Derpanis. Mean shift clustering. http://www.cse.yorku.ca/~kosta/CompVis_Notes/mean_shift.pdf, 2005.
[10] Martin Ester, Hans-Peter Kriegel, J ?org Sander, and Xiaowei Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. In Kdd, volume 96, pages 226–231, 1996.
[11] Andrew Y Ng, Michael I Jordan, Yair Weiss, et al. On spectral clustering: Analysis and an algorithm. Advances in neural information?processing systems, 2:849–856, 2002.
[12] Douglas Reynolds. Gaussian mixture models. Encyclopedia of Biometrics, pages 659–663, 2009.
[13] Alex Rodriguez and Alessandro Laio. Clustering by fast search and find of density peaks. Science, 344(6191):1492–1496, 2014.
[14] Aarti Singh. Spectral clustering. https://www.cs.cmu.edu/~aarti/Class/10701/slides/Lecture21_2.pdf.
[15] Ulrike Von Luxburg. A tutorial on spectral clustering. Statistics and computing, 17(4):395–416, 2007.
[16] Jue Wang, Bo Thiesson, Yingqing Xu, and Michael Cohen. Image?and video segmentation by anisotropic kernel mean shift. In Computer?Vision-ECCV 2004, pages 238–249. Springer, 2004.
[17] Rui Xu, Donald Wunsch, et al. Survey of clustering algorithms. Neural Networks, IEEE Transactions on, 16(3):645–678, 2005.

Clustering by density peaks and distance

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系： 360901061

您的支持是博主寫作最大的動(dòng)力，如果您喜歡我的文章，感覺我的文章對(duì)您有幫助，請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長(zhǎng)非常感激您！手機(jī)微信長(zhǎng)按不能支付解決辦法：請(qǐng)將微信支付二維碼保存到相冊(cè)，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】元

2元

5元

10元

20元

自定義

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

聚類算法回顧

基于密度峰值和距離的聚類算法

References