大話數(shù)據(jù)挖掘之數(shù)據(jù)挖掘簡介
2020-12-21 17:46:13
次
人物介紹
許教授:國內(nèi)數(shù)據(jù)挖掘?qū)<摇⒛?85高校智能信息處理學(xué)術(shù)帶頭人
萬總:某超市集團營銷副總
李部長:某鋼鐵集團生產(chǎn)部部長
某985高校管理學(xué)院第五屆EMBA班的《數(shù)據(jù)挖掘及其應(yīng)用》課程上。
國內(nèi)數(shù)據(jù)挖掘?qū)<?、智能信息處理學(xué)術(shù)帶頭人徐教授站在講臺上打開PPT說:“同學(xué)們,大家好!將由我向大家介紹數(shù)據(jù)挖掘及其應(yīng)用。這門課我們將通過典型的應(yīng)用實例深入淺出地介紹數(shù)據(jù)挖掘的概念、功能、流程和算法。”
“隨著計算機技術(shù)、數(shù)據(jù)庫技術(shù)、傳感器技術(shù)和自動化技術(shù)的飛速發(fā)展,人們獲取數(shù)據(jù)、存儲數(shù)據(jù)變得越來越容易。這些數(shù)據(jù)不是人為產(chǎn)生的,是對我們所研究對象隱含的一定的規(guī)律的反映。數(shù)據(jù)挖掘的目的就是要從所獲取的數(shù)據(jù)中發(fā)現(xiàn)這種規(guī)律性的知識,從而幫助企業(yè)在他們的數(shù)據(jù)倉庫中找到最重要的信息,預(yù)測未來趨勢和行為,使得商務(wù)和生產(chǎn)活動具有前瞻性,并作出具有知識驅(qū)動的決策。那么到底什么是數(shù)據(jù)挖掘呢?同學(xué)們可以說一下自己的認識。”
學(xué)員們你一言,我一語,爭先恐后。
“數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)現(xiàn)有價值的信息的技術(shù)。”
“數(shù)據(jù)挖掘是對數(shù)據(jù)建立模型,通過算法求解而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的知識的一種手段。”
“……”
徐教授總結(jié)道:“大家對數(shù)據(jù)挖掘的認識都值得表揚,不過各人表述的都不夠全面。”說著,徐教授敲了一下鍵盤,說:“請看大屏幕,這才是最權(quán)威的數(shù)據(jù)挖掘的定義。”
“數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。”
大家認真地看著屏幕的內(nèi)容。
片刻之后,有學(xué)員問道:“數(shù)據(jù)量小是不是就不能進行數(shù)據(jù)挖掘了?”
徐教授答道:“實際上數(shù)據(jù)挖掘的算法大都是建立在統(tǒng)計學(xué)大數(shù)定律基礎(chǔ)上的。數(shù)據(jù)量太小,常常無法反映出真實世界中的普遍特性,這樣挖掘算法得出的結(jié)論自然不可靠。但并非小數(shù)據(jù)量就不可以進行挖掘,近年來研究者也提出了一些對小樣本進行挖掘的方法,如支撐向量機方法就是基于小樣本學(xué)習(xí)理論的非常實用的方法。數(shù)據(jù)量雖小,但數(shù)據(jù)總是事物特性一定程度的反映,只要建立的模型和算法得當,當然也可以從這些數(shù)據(jù)中獲取一定的知識。”
“那么是不是數(shù)據(jù)量越大越好?”有學(xué)員問。
“從理論上說,應(yīng)該是這樣。但隨著數(shù)據(jù)量的增大,算法執(zhí)行效率會越來越低,甚至無法計算。”徐教授回答說。
剛才提問的學(xué)員點了點頭,接著問:“徐老師,數(shù)據(jù)挖掘的定義中,數(shù)據(jù)前面還有那么多的修飾,您還是給我們解釋解釋吧。”
“大家淡定點,‘不完全的、有噪聲的、模糊的、隨機的’確實有點繞口,現(xiàn)實中經(jīng)常會碰到這種數(shù)據(jù)。例如,問卷調(diào)查時發(fā)現(xiàn)不少人不填婚姻狀況和年齡,這些不完全的或缺失的數(shù)據(jù)會給數(shù)據(jù)挖掘帶來一定的難度,我們要么干脆刪除這些樣本或記錄,要么選擇使用一定的方法將這些缺失數(shù)據(jù)補上,或者選擇使用可以自動處理缺失數(shù)據(jù)的算法。”說道這兒,徐教授端起了茶杯,說自己也要補充一下水分了。
“那噪聲是什么意思?”一學(xué)員問。
徐教授合上茶杯蓋子,一邊狠狠地用杯子連續(xù)敲擊著桌子,一邊說:“對于我講課的聲音來說,敲桌子的聲音就是噪音,我們的錄音機錄到的是我的講話聲和敲桌子聲混雜在一起的混合聲波數(shù)據(jù)。”
“我明白了,由于異常情況的干擾,使我們獲得的數(shù)據(jù)偏離了真實值,這樣的數(shù)據(jù)就是噪音數(shù)據(jù)。”剛才提問的學(xué)員說。
“不光是外界的干擾,測量儀器的故障、人工輸入或抄寫時的失誤等都可能形成噪音數(shù)據(jù),可見實際問題中噪音數(shù)據(jù)往往難以避免的。”徐教授進一步解釋說。
“徐老師,什么是模糊的、隨機的數(shù)據(jù)?”又有一學(xué)員問。
“在數(shù)據(jù)挖掘過程中,我們不可避免地要涉及事物的不確定性。不確定性包括模糊性和隨機性。模糊性則指事物本身從屬概念的不確定性,隨機性是指事件發(fā)生與否的不確定性。”
“太抽象了,徐老師,您給我們舉個例子吧!”李部長建議說。
“好吧。其實模糊的數(shù)據(jù)大家平時都經(jīng)常見到,比如說張三個子很高,李四個子較矮,個子的高矮就是典型的模糊性概念,到底多高才算高,李部長1米80,對一般人來說算高個子,但跟姚明比,就太矮了。隨機數(shù)據(jù)也極為多見,比如說華潤萬家啤酒每天的銷量顯然是不確定的,大部分人買啤酒是在超市轉(zhuǎn)悠時臨時決定的。”徐教授回答道。
李部長扶了扶眼鏡,支支吾吾地說:“我似乎明白了……”
萬總快人快語:“徐老師,數(shù)據(jù)挖掘的目的是從數(shù)據(jù)中發(fā)現(xiàn)新的信息和知識,那挖掘出來的知識是什么?”
徐教授回答道:“挖掘出來的知識就是‘散落的珍珠’,亦或是‘發(fā)光的金子’,它對人們的實際決策價值非凡。知識是通過對數(shù)據(jù)進行深入地歸納、分析而獲得的,是對所研究對象更深層次的認識。知識是隱藏在數(shù)據(jù)中的關(guān)于所研究對象的規(guī)律性,比如說可以用來預(yù)測的數(shù)學(xué)模型、‘如果…那么…’這樣的規(guī)則、描述事物的類別、有價值的模式、所研究對象的結(jié)構(gòu)、研究對象與對象之間的關(guān)系等等。”
關(guān)于數(shù)據(jù)挖掘介紹的內(nèi)容就介紹到這里。