大話數(shù)據(jù)挖掘之數(shù)據(jù)挖掘流程(以鋼鐵行業(yè)為例)
2021-01-18 18:00:36
次
某985高校管理學院第五屆EMBA班的《數(shù)據(jù)挖掘及其應用》課程上。
上一節(jié)課結束時,徐教授建議讓國內(nèi)不銹鋼巨頭公司的品質(zhì)部李部長與大家分享他們公司數(shù)據(jù)挖掘的成功經(jīng)驗,向?qū)W員們介紹數(shù)據(jù)挖掘的流程。
李部長說:“鋼鐵企業(yè)是流程化的生產(chǎn)單位,雖然生產(chǎn)自動化程度非常高,但是,老實說,我們的很多工序如煉鐵、煉鋼、連鑄、軋鋼等的過程控制很大程度上依賴技術工人的經(jīng)驗,對生產(chǎn)過程的駕馭還比較粗放。不過,我們已經(jīng)建立了先進的信息化平臺。尤其是近幾年企業(yè)形成的‘建設創(chuàng)新型企業(yè)’的文化氛圍下,我們公司積累了豐富的數(shù)據(jù),也具備了一支高素質(zhì)的管理技術隊伍。企業(yè)高層領導一致認為,科學決策是企業(yè)信息化建設的最終目標,數(shù)據(jù)挖掘是實現(xiàn)這一目標的有效工具,是構筑未來核心竟爭優(yōu)勢、保持可持續(xù)發(fā)展、實施精細化管理的戰(zhàn)略選擇。”
李部長繼續(xù)說道:“大家知道, ERP系統(tǒng)它以供應鏈為主線,包括從銷售訂單或生產(chǎn)經(jīng)營計劃—生產(chǎn)排程—組織采購—安排生產(chǎn)—銷售發(fā)貨的整個過程,著力于計劃流、物流、信息流、資金流的統(tǒng)一運轉,通過計劃流驅(qū)動物流,通過物流驅(qū)動資金流的良性循環(huán)。從ERP的角度來看,SAP系統(tǒng)確實不辱‘全球最佳’這一稱號。但從數(shù)據(jù)挖掘的角度 著眼,關注新產(chǎn)品設計、改進產(chǎn)品質(zhì)量、降低生產(chǎn)成本、設備故障檢測等這些主題。這些方面涉及到基礎自動化(L1)、過程自動化(L2)、產(chǎn)線管控(MES)、經(jīng)營管理(ERP)、決策支持(DSS)等信息系統(tǒng)。可是這五級系統(tǒng)并沒有完全整合,在一定程度上還是‘信息孤島’。當確定了數(shù)據(jù)挖掘的目標后,就需要對數(shù)據(jù)進行整理。當然,像我們這樣正在進軍世界五百強的大型鋼鐵公司,可以通過數(shù)據(jù)挖掘解決的問題太多了,最好是統(tǒng)一規(guī)劃,建立數(shù)據(jù)倉庫。”
李部長道:“目前我國的大中型企業(yè)不乏信息化方面的技術人員,但懂得數(shù)據(jù)挖掘的人才寥寥無幾,在這種條件下開展數(shù)據(jù)挖掘工作,一方面需要與高校等科研單位或?qū)I(yè)的數(shù)據(jù)挖掘公司合作,另一方面還要加強數(shù)據(jù)挖掘知識培訓,培養(yǎng)一些既精通本領域業(yè)務,又熟悉數(shù)據(jù)挖掘流程,了解數(shù)據(jù)挖掘方法的技術骨干。這樣,行業(yè)領域技術人員和數(shù)據(jù)挖掘?qū)<乙黄鸩拍軓膶嶋H工作中提煉出可以通過數(shù)據(jù)挖掘方法解決的問題,建立合理的數(shù)據(jù)模型,客觀地評估數(shù)據(jù)挖掘的結果。”
李部長接著說:“組建了團隊以后,怎樣開展工作呢?大家首先要清楚地認識到,數(shù)據(jù)挖掘可以解決企業(yè)生產(chǎn)、管理中的很多用常規(guī)方法難以處理的問題,但數(shù)據(jù)挖掘也不是萬能的,不能包攬所有問題。而且還會有一些問題應用經(jīng)典的數(shù)據(jù)挖掘方法無法得到滿意的結果,需要數(shù)據(jù)挖掘?qū)<裔槍唧w問題建立相應的數(shù)學模型并設計特有的求解算法才能解決。因此,開展數(shù)據(jù)挖掘的初期,最好選擇一些相對容易的問題,這樣,一方面能夠很快領略到數(shù)據(jù)挖掘的奧妙,另一方面為解決較為復雜的問題積累經(jīng)驗。”

李部長道:“我們認為硅鋼縱條紋問題是我們迫在眉睫、不能回避的問題。雖然有相當?shù)碾y度,但也得背水一戰(zhàn)。在硅鋼縱條紋項目完成后,我們繼續(xù)進行基于支撐向量機和遺傳算法的熱連軋質(zhì)量控制方法研究。經(jīng)公司領導同意后,我們鋼鐵公司和數(shù)據(jù)挖掘公司先簽訂了消除硅鋼鋼板縱條紋缺陷的數(shù)據(jù)挖掘方法研究技術協(xié)議。雙方?jīng)Q定共同組建數(shù)據(jù)挖掘團隊,團隊由專家組、數(shù)據(jù)組、算法組、軟件組和部署組5個組構成,由李部長擔任甲方數(shù)據(jù)挖掘項目經(jīng)理,負責整體負責數(shù)據(jù)項目的實施。由數(shù)據(jù)挖掘公司的盧經(jīng)理擔任乙方項目經(jīng)理,具體開展數(shù)據(jù)挖掘工作。”
數(shù)據(jù)挖掘項目實施
“李部長,這回你可謂騎馬上獨木橋——回不得頭了!”S鋼鐵公司的趙總說。
李部長顯得不慌不忙的樣子:“研究團隊成立后各小組立即緊鑼密鼓地按照‘跨行業(yè)數(shù)據(jù)挖掘標準流程’既有分工又相互協(xié)作地開展工作,經(jīng)過一個半月的奮戰(zhàn),終于取得了可喜的成果。”
李部長用光筆指著這張流程圖說:“為了低成本、易操作、高效、可靠地進行數(shù)據(jù)挖掘,經(jīng)過數(shù)據(jù)挖掘標準化聯(lián)盟對十幾年數(shù)據(jù)挖掘?qū)嵺`進行經(jīng)驗總結和理論抽象,創(chuàng)建了跨行業(yè)數(shù)據(jù)挖掘標準流程,即CRoss Industry Standard Process for Data Mining,簡稱CRISP-DM。它包括業(yè)務理解、數(shù)據(jù)理解以及收集、數(shù)據(jù)準備、建立模型、模型評估和部署六個階段。我們消除硅鋼鋼板縱條紋缺陷的數(shù)據(jù)挖掘方法項目也是按照這六個步驟進行的。”
1 業(yè)務理解階段(business understanding)
李部長手中的光筆指著投影幕:“我代表甲方提出,硅鋼縱條紋問題的需求很明確,就是要應用數(shù)據(jù)挖掘方法找出導致縱條紋的關鍵因素,并實現(xiàn)對關鍵因素的控制達到消除硅鋼縱條紋的目的。”
“在第一次數(shù)據(jù)挖掘會議上,我先匯報了硅鋼生產(chǎn)線出現(xiàn)縱條紋缺陷的情況。我們公司技術中心教授級高工劉主任從冶金學原理方面陳述了縱條紋產(chǎn)生的機理,軋鋼廠楊總工描述了硅鋼生產(chǎn)流程并分析了影響硅鋼縱條紋的因素。X大學數(shù)據(jù)挖掘中心金教授介紹了對硅鋼縱條紋問題數(shù)據(jù)建模的初步設想。經(jīng)過各小組成員一起認真分析認為,硅鋼縱條紋問題有望通過非平衡的分類方法解決。最后,提出了將硅鋼縱條紋比率由現(xiàn)在的12.1%降低到1.8%的目標。”
2 數(shù)據(jù)理解階段(data understanding)
“下一步我們進入了數(shù)據(jù)挖掘的數(shù)據(jù)理解階段。在這一階段,我們根據(jù)硅鋼縱條紋產(chǎn)生的機理和硅鋼生產(chǎn)流程,經(jīng)過反復篩選,初步確定硅鋼縱條紋的影響因素有連鑄中包溫度、連鑄拉速、鑄坯成分、粗軋出口溫度、精軋出口溫度和卷取溫度等共21個。”李部長說。
李部長得意地說:“用了5天時間,數(shù)據(jù)組就將數(shù)據(jù)從相關部門收集來了。他們對各部門的數(shù)據(jù)瀏覽,發(fā)現(xiàn)數(shù)據(jù)有不少缺失,甚至還有明顯的異常。進一步分析發(fā)現(xiàn),有些影響因素的數(shù)據(jù)方差特別小,于是便將它們認為是常量。數(shù)據(jù)組一致認為雖然從理論上說這些因素對硅鋼縱條紋有作用,但生產(chǎn)工藝控制命中率足夠高,使得相應的影響因素數(shù)據(jù)變化很小,對硅鋼縱條紋的作用幾乎恒定不變。于是將這些影響因素刪除,影響因素從原來的21個減少到15個。最后,數(shù)據(jù)組給出了影響縱條紋的因素列表,并對數(shù)據(jù)具體含義、命中目標值、異常、缺失等進行了詳細的描述,形成了《數(shù)據(jù)收集及質(zhì)量檢驗報告》。”
3 數(shù)據(jù)準備階段(data preparation)
李部長接著說:“數(shù)據(jù)理解階段已經(jīng)初步確定,硅鋼縱條紋的主要影響因素有15個,包含連鑄中包溫度t1、t2、t3,連鑄拉速v1、v2、v3(數(shù)據(jù)來源于連鑄數(shù)據(jù)庫),鑄坯成分C、Si、Mn、S、P、Al(數(shù)據(jù)由檢化驗數(shù)據(jù)庫獲得),粗軋出口溫度RT0、精軋出口溫度FT6和卷取溫度CT(要從軋鋼數(shù)據(jù)庫提取)。這些數(shù)據(jù)可由鑄坯編號、轉爐編號和硅鋼卷號關聯(lián)形成一個數(shù)據(jù)表。然后再對這個表進行空值及異常值處理、離群值剔除操作。”
李部長:“一般最好不要輕易刪除數(shù)據(jù),對于空值、異常值處理、離群值通常采取均值、迭代回歸等方法進行補缺或修正處理,尤其在樣本數(shù)量較少的情況下更應當如此。不過經(jīng)過1個多月的生產(chǎn)數(shù)據(jù)積累,我們采集的數(shù)據(jù)量比較充分,刪除極少量‘壞’樣本對數(shù)據(jù)建模不會有什么影響。”
4 建模階段(modeling)
李部長指著大屏幕說道:“硅鋼縱條紋問題初步分析就是一個非平衡分類問題,可將幾乎所有的分類問題的數(shù)學模型和求解算法統(tǒng)統(tǒng)試驗了多遍,所得到模型的預測能力都非常差。后來發(fā)現(xiàn)硅鋼縱條紋數(shù)據(jù)集不僅是非平衡數(shù)據(jù)集,而且是不相容數(shù)據(jù)。”
“硅鋼生產(chǎn)是非常復雜的生產(chǎn)過程,產(chǎn)生縱條紋的影響因素很多,為了簡化問題和數(shù)據(jù)獲取方便,我們忽略了一些對縱條紋作用相對較小的影響因素,這樣就會存在很多硅鋼產(chǎn)品其影響縱條紋的因素非常相同或相近,但縱條紋的類別完全相反。這樣的樣本稱為不相容樣本,相應的數(shù)據(jù)集稱為不相容數(shù)據(jù)集。”
李部長指向圖上的紅點:“這些紅點大部分中還套有藍色的‘+’號,這些樣本就是不相容數(shù)據(jù)?”
李部長繼續(xù)說道:“不知大家留心沒有,圖的左下方全是藍色的‘+’號,代表這一片區(qū)域都是正品,是生產(chǎn)的‘優(yōu)區(qū)’,右上方藍色和紅色交疊,表明這部分區(qū)域次品正品都有,是生產(chǎn)的‘劣區(qū)’。我們只要使生產(chǎn)在優(yōu)區(qū)進行的規(guī)則就行了。”
“我們先提出了一種新的分類準則,稱為支持度最大化準則,即分類器分出的‘優(yōu)區(qū)’的樣本盡可能的多。還提出了實現(xiàn)支持度最大化準則的代價敏感損失函數(shù),在此基礎上才建立了消除硅鋼縱條紋缺陷的L1正則化模型,還創(chuàng)新性的設計了求解該模型的L1稀疏迭代算法。”
李部長的光筆指向圖中間的直線:“這條線就是模型求解得出的生產(chǎn)‘優(yōu)區(qū)’和‘劣區(qū)’的分界線,線的左面全是正品,優(yōu)區(qū)樣本的數(shù)量對所有樣本的比率即支持度高達49.11%。如果將生產(chǎn)控制在優(yōu)區(qū)進行,就會極大的降低硅鋼縱條紋出現(xiàn)的幾率。”
5 模型評估階段(evaluation)
李部長說:“模型評估是至關重要的一個環(huán)節(jié),未經(jīng)過評估的模型千萬不可直接就去應用。因為所得出的模型只是通過已有的數(shù)據(jù)得出,對未來數(shù)據(jù)的預測能力如何,一定要經(jīng)過實踐的檢驗。”
“我們獲得的分界線即分類器是線性的,我們可以根據(jù)每一個變量前面的系數(shù)的正負判斷其對縱條紋是正面影響還是負面影響,依據(jù)其絕對值的相對大小衡量相應的變量對縱條紋的作用大小。從分類器的表達式容易看出,Si、FT6、Al和P為硅鋼縱條紋的主要影響因素,這與理論分析的定性結論相符。”
6 部署階段(deployment)
李部長:“我們將原來生產(chǎn)控制策略中影響硅鋼縱條紋的15個因素的命中目標值代入所得到得分類器中,發(fā)現(xiàn)它正好位于‘優(yōu)區(qū)’和‘劣區(qū)’分界線偏右處。可見,這正是硅鋼縱條紋比率高的原因。為了保持生產(chǎn)的穩(wěn)定進行,我們只對硅鋼縱條紋影響最大的4個因素的命中目標值作了調(diào)整,將調(diào)整后的15個影響因素的目標值代入所得的分類器中,結果落入‘優(yōu)區(qū)’和‘劣區(qū)’分界線的左側。”
李部長:“我們將一個半月來的數(shù)據(jù)挖掘工作進行了詳細總結,最后完成了《應用部署報告》,上報公司領導批準實施改進的生產(chǎn)控制策略。”
李部長鏗鏘地回答道:“董事長召集公司技術中心硅鋼研究室的幾位研究員、硅鋼生產(chǎn)線的主要技術人員和國內(nèi)著名硅鋼專家W鋼鐵公司的施總工對我們改進的控制策略進行了反復論證,最后同意了我們的方案。”
“一個月后統(tǒng)計結果令人振奮,硅鋼縱條紋的比率降低到了1.65%,產(chǎn)品的各項性能指標達到了國際先進水平。”李部長激動的說。