大話數(shù)據(jù)挖掘之聚類分析(下篇)
2021-02-02 15:59:00
次
人物介紹
許教授:國(guó)內(nèi)數(shù)據(jù)挖掘?qū)<?、?85高校智能信息處理學(xué)術(shù)帶頭人
趙總:某電力公司總經(jīng)理
萬(wàn)總:某超市集團(tuán)營(yíng)銷副總
李部長(zhǎng):某鋼鐵集團(tuán)生產(chǎn)部部長(zhǎng)
某985高校管理學(xué)院第五屆EMBA班的《數(shù)據(jù)挖掘及其應(yīng)用》課程上。
國(guó)內(nèi)數(shù)據(jù)挖掘專家、智能信息處理學(xué)術(shù)帶頭人徐教授站在講臺(tái)上打開PPT說(shuō):“同學(xué)們,大家好!今天我們接著上一節(jié)課關(guān)于聚類分析的內(nèi)容展開。”
徐教授:“上節(jié)課我們講了k-Means算法和k-Medoids算法的第一個(gè)不足。第二個(gè)不足就是這兩種算法不適用于發(fā)現(xiàn)非球狀的簇。原因是這類算法使用距離來(lái)描述數(shù)據(jù)之間的相似性,但是,對(duì)于非球狀數(shù)據(jù)集,只用距離來(lái)描述是不夠的。”
“那遇到非球狀的聚類問(wèn)題可怎么辦呢?”萬(wàn)總問(wèn)道。
徐教授答道:“對(duì)于這種情況,要用密度來(lái)代替相似性設(shè)計(jì)聚類算法,這就是基于密度的聚類算法即Density-based Method。基于密度的算法從數(shù)據(jù)對(duì)象的分布密度出發(fā),把密度足夠大的區(qū)域連接起來(lái),從而可以發(fā)現(xiàn)任意形狀的簇,而且此類算法還能夠有效去除噪聲。常見(jiàn)的基于密度的聚類算法有DBSCAN,OPTICS,DENCLUE等。”
李部長(zhǎng)已經(jīng)沉默了好長(zhǎng)時(shí)間,他擔(dān)心萬(wàn)總又有什么問(wèn)題影響徐教授的教學(xué)進(jìn)度,趕緊插話道:“徐老師,您剛才說(shuō)還有一種層次方法,這種聚類方法的思想……”
徐教授:“好,我現(xiàn)在就介紹一下層次方法即Hierarchical Method的基本思想。這種方法按數(shù)據(jù)分層建立簇,形成一棵以簇為節(jié)點(diǎn)的樹。如果自底向上進(jìn)行層次聚集,則稱為凝聚的(Aggalomerative)層次聚類;如果自頂向下的進(jìn)行層次分解,則稱為分裂法(Divisive)的層次聚類。”
徐教授潤(rùn)了潤(rùn)嗓子,繼續(xù)講道:“凝聚的層次聚類首先將每個(gè)對(duì)象作為一個(gè)簇,然后逐漸合并這些簇形成較大的簇,直到所有的對(duì)象都在同一個(gè)簇中,或者滿足某個(gè)終止條件。分裂的層次聚類與之相反,它首先將所有的對(duì)象置于一個(gè)簇中,然后逐漸劃分為越來(lái)越小的簇,直到每個(gè)對(duì)象自成一簇,或者達(dá)到了某個(gè)終止條件,例如達(dá)到了某個(gè)希望的簇?cái)?shù)目,或兩個(gè)最近的簇之間的距離超過(guò)了一定的閾值。”
李部長(zhǎng)一直認(rèn)真地聽著,不斷地點(diǎn)頭表示他明白了層次聚類的思想。隨后,他提問(wèn)道:“徐老師,層次聚類算法有什么缺點(diǎn)?”
徐教授:“層次方法可以在不同粒度水平上對(duì)數(shù)據(jù)進(jìn)行探測(cè),而且容易實(shí)現(xiàn)相似度量或距離度量。但是,單純的層次聚類算法的終止條件含糊,而且執(zhí)行合并或分裂簇的操作不可修正,這很可能導(dǎo)致聚類結(jié)果質(zhì)量很低。另外,由于需要檢查和估算大量的對(duì)象或簇才能決定簇的合并或分裂,所以這種方法的可擴(kuò)展性較差。因此,通常在解決實(shí)際聚類問(wèn)題時(shí)要把層次方法與其他方法結(jié)合起來(lái)。層次方法和其他聚類方法的有效結(jié)合可以形成多階段聚類,能夠改善聚類質(zhì)量。這類方法包括BIRCH、CURE、ROCK、Chameleon算法等。”
李部長(zhǎng)迫不及待地說(shuō):“徐老師,您剛才講了這么多聚類方法,我發(fā)現(xiàn)它們有一個(gè)共同的缺點(diǎn),就是算法無(wú)法回答數(shù)據(jù)對(duì)象到底可以聚集為多少類,據(jù)說(shuō)你們研究團(tuán)隊(duì)發(fā)明了一種視覺(jué)聚類算法,很好地解決了這一問(wèn)題。我們幾個(gè)人昨天晚上還打賭,我說(shuō)您今天肯定會(huì)講視覺(jué)聚類算法,可都要快下課了,您根本沒(méi)有提及視覺(jué)兩字。我們都等不及了,您還是讓我們大家欣賞一下視覺(jué)聚類的神奇魅力吧!”
說(shuō)到視覺(jué)聚類算法,徐教授臉上露出了會(huì)心的微笑。
“好的。視覺(jué)聚類算法是基于我們所建立的尺度空間理論建立的,運(yùn)用這種算法可以對(duì)衛(wèi)星傳回的原始圖像進(jìn)行分析,把具有相似屬性的事物聚到同一簇中,例如將其用于香港地區(qū)地表高精度遙感圖像聚類、混雜遙感圖像中線狀目標(biāo)如地震帶、高速公路、機(jī)場(chǎng)跑道等目標(biāo)識(shí)別等。”
李部長(zhǎng)聽到這里,激動(dòng)得跳了起來(lái):“徐老師,看來(lái)視覺(jué)聚類算法有可能用于我們板材表面條紋、夾雜、重皮等質(zhì)量問(wèn)題的自動(dòng)檢測(cè),我們?cè)囋嚢桑?rdquo;

蛋白質(zhì)分析
徐教授接著說(shuō):“李部長(zhǎng)的聯(lián)想很豐富呀,國(guó)內(nèi)外不少已經(jīng)將這種方法試驗(yàn)過(guò)了。美國(guó)喬治亞大學(xué)Lan小組、美國(guó)馬里蘭大學(xué)DeMenthon小組、中科環(huán)境與地理信息重點(diǎn)實(shí)驗(yàn)室等先后將視覺(jué)聚類算法用于地理數(shù)據(jù)的圖像處理,還有比利時(shí)Namur大學(xué)著名的化學(xué)家Leherte教授所領(lǐng)導(dǎo)的實(shí)驗(yàn)室將視覺(jué)聚類算法應(yīng)用到生物計(jì)算,進(jìn)行胃蛋白酶配合體的匹配、分子電流密度函數(shù)、蛋白質(zhì)分子的結(jié)構(gòu)表達(dá)等研究。”
趙總:“徐老師,視覺(jué)聚類算法可太有用了,真棒!”
徐教授非常高興:“不謙虛地說(shuō),視覺(jué)聚類算法確實(shí)有其獨(dú)到之處,其基本思想非常獨(dú)特:將數(shù)據(jù)集看作圖像,將數(shù)據(jù)建模問(wèn)題看作認(rèn)知問(wèn)題,通過(guò)模擬認(rèn)知心理學(xué)的格式塔原理原理與生物視覺(jué)原理解決問(wèn)題。”
“且慢且慢,什么是格式塔原理?”李部長(zhǎng)打斷了徐教授的話語(yǔ)。
徐教授翻動(dòng)了一下PPT:“很簡(jiǎn)單,格式塔原理就是物體的整體是由局部特征組織在一起的認(rèn)知原則,請(qǐng)看屏幕。”
“我們將相似率、連續(xù)率、閉合率、近鄰率和對(duì)稱率作為聚類的基本原則,模擬人的眼睛由近到遠(yuǎn)觀察景物的過(guò)程設(shè)計(jì)算法進(jìn)行聚類。隨著人由近及遠(yuǎn),也就是觀察尺度由小變大,所看到的景物的層次會(huì)逐漸變化,實(shí)際上這就是一個(gè)聚類的過(guò)程。”徐教授邊說(shuō)邊翻了一下PPT。

李部長(zhǎng)聽得如醉如癡,看著PPT上視覺(jué)聚類的示意圖,突然,他冒出了一個(gè)新的問(wèn)題:“徐老師,我明白了,在近處,所聚的類會(huì)很多,在遠(yuǎn)處,所聚的類會(huì)很少,在很遠(yuǎn)處,所看到的東西就成為一個(gè)類別了。您說(shuō),到底聚為多少類最為合適呢?”
徐教授點(diǎn)了點(diǎn)頭:“李部長(zhǎng)的雙核腦袋就是轉(zhuǎn)得快,一下子問(wèn)道了視覺(jué)聚類的關(guān)鍵。隨著尺度σ由小變大,聚類的個(gè)數(shù)在發(fā)生變化,但會(huì)出現(xiàn)尺度σ在很大范圍內(nèi)變化,而聚類的個(gè)數(shù)卻穩(wěn)定不變的情況。這個(gè)聚類個(gè)數(shù)存活周期最長(zhǎng),它就是最佳的聚類個(gè)數(shù)!”
“太妙了,視覺(jué)聚類理論通過(guò)引進(jìn)類的生存壽命概念,給出了類的認(rèn)知定義,解決了聚類有效性問(wèn)題。數(shù)學(xué)上嚴(yán)格證明了結(jié)構(gòu)的因果性即類的演化單調(diào)性,由此形成了尺度空間聚類的一般性理論框架。”李部長(zhǎng)流利地對(duì)視覺(jué)聚類進(jìn)行了總結(jié)。
徐教授對(duì)李部長(zhǎng)的話感到納悶:“李部長(zhǎng),你不是做數(shù)據(jù)挖掘研究的,不可能給出這么深刻的總結(jié)吧!”
李部長(zhǎng)笑了笑:“嘿嘿,這是我從網(wǎng)上看到的有人對(duì)視覺(jué)聚類方法的評(píng)價(jià)。”
下課鈴響了,徐教授邊合上電腦邊說(shuō):“聚類方法我們就簡(jiǎn)單學(xué)習(xí)到這兒,下一節(jié)可咱們一起討論數(shù)據(jù)挖掘非常重要的內(nèi)容——預(yù)測(cè)。”
“今天關(guān)于關(guān)聯(lián)規(guī)則挖掘的內(nèi)容就介紹到這里。同學(xué)們,下節(jié)課見(jiàn)!”