常見(jiàn)的數(shù)據(jù)分析問(wèn)題歸類(lèi)
2023-12-07 18:03:00
次
數(shù)據(jù)分析項(xiàng)目分析方案設(shè)計(jì)的關(guān)鍵前提是明確業(yè)務(wù)問(wèn)題,經(jīng)過(guò)業(yè)務(wù)需求的了解和數(shù)據(jù)探索的環(huán)節(jié),我們對(duì)于業(yè)務(wù)知識(shí)和數(shù)據(jù)已經(jīng)建立了較為清晰的認(rèn)知,分析方案設(shè)計(jì)需要在業(yè)務(wù)和數(shù)據(jù)認(rèn)知基礎(chǔ)上結(jié)合以往的案例分析經(jīng)驗(yàn),仔細(xì)分析項(xiàng)目的業(yè)務(wù)問(wèn)題類(lèi)型,確定解決問(wèn)題的框架。如果問(wèn)題歸納出現(xiàn)偏差,將會(huì)導(dǎo)致后續(xù)的建設(shè)方案走向誤區(qū),從而導(dǎo)致模型效果不理想,達(dá)不到業(yè)務(wù)要求。我們也在此羅列了目前常見(jiàn)的基本業(yè)務(wù)問(wèn)題類(lèi)型,包括關(guān)鍵因子、分類(lèi)問(wèn)題、回歸問(wèn)題、聚類(lèi)問(wèn)題、關(guān)聯(lián)規(guī)則問(wèn)題、時(shí)間序列問(wèn)題、綜合評(píng)價(jià)問(wèn)題、信號(hào)分析問(wèn)題 最優(yōu)化問(wèn)題,將結(jié)合具體情景對(duì)各個(gè)問(wèn)題類(lèi)型進(jìn)行說(shuō)明。
1、回歸問(wèn)題
回歸就是學(xué)習(xí)、利用歷史數(shù)據(jù),預(yù)測(cè)出我們關(guān)注的指標(biāo)未來(lái)的一個(gè)取值。
以工業(yè)蒸汽量預(yù)測(cè)項(xiàng)目為例。火力發(fā)電的基本原理是:燃料在燃燒時(shí)加熱水生成蒸汽,蒸汽壓力推動(dòng)汽輪機(jī)旋轉(zhuǎn),然后汽輪機(jī)帶動(dòng)發(fā)電機(jī)旋轉(zhuǎn),產(chǎn)生電能。在這一系列的能量轉(zhuǎn)化中,影響發(fā)電效率的核心是鍋爐的燃燒效率,即燃料燃燒加熱水產(chǎn)生高溫高壓蒸汽。鍋爐的燃燒效率的影響因素很多,包括鍋爐的可調(diào)參數(shù),如燃燒給量,一二次風(fēng),引風(fēng),返料風(fēng),給水水量;以及鍋爐的工況,比如鍋爐床溫、床壓,爐膛溫度、壓力,過(guò)熱器的溫度等??蛻舻哪繕?biāo)是可以精準(zhǔn)地預(yù)測(cè)工業(yè)蒸汽量。
回歸預(yù)測(cè)問(wèn)題的方案設(shè)計(jì)框架通常需要引入機(jī)器學(xué)習(xí)回歸算法,基于歷史數(shù)據(jù)的學(xué)習(xí),最終選擇最優(yōu)的回歸模型,從而實(shí)現(xiàn)客戶目標(biāo)。
2、分類(lèi)問(wèn)題
分類(lèi)預(yù)測(cè)是分類(lèi)問(wèn)題是根據(jù)已知樣本的某些特征,判斷一個(gè)新的樣本屬于哪種已知的樣本類(lèi)。
以設(shè)備運(yùn)行狀態(tài)的配變重過(guò)載分析項(xiàng)目為例。隨著生產(chǎn)、生活用電負(fù)荷在不斷攀升,使得供電企業(yè)原有的配變?cè)O(shè)備所承受的負(fù)荷日趨嚴(yán)重,各地市供電設(shè)備量巨大,開(kāi)展所有設(shè)備巡檢,需要4個(gè)檢修人員半年的工作量;而且故障頻發(fā),人工檢修易造成“檢修不及時(shí)”和“檢修過(guò)剩”,平均檢修治理成功率僅僅20%左右,客戶的目標(biāo)是對(duì)配變?cè)O(shè)備進(jìn)行重過(guò)載預(yù)測(cè),為檢修人員提供檢修名單。
以公募基金的精準(zhǔn)營(yíng)銷(xiāo)分析項(xiàng)目為例。券商發(fā)行公募基金產(chǎn)品,傳統(tǒng)的營(yíng)銷(xiāo)方式為外呼人員電話營(yíng)銷(xiāo)。這種電話營(yíng)銷(xiāo)方式的存在主要問(wèn)題有兩點(diǎn):1)工作量巨大,因?yàn)槭怯萌靠蛻裘麊蝸?lái)打電話營(yíng)銷(xiāo):開(kāi)展10萬(wàn)人次外呼營(yíng)銷(xiāo)任務(wù),需要4個(gè)外呼人員1年的工作量;2)意向成功率過(guò)低,平均接通率54%,意向成功率18.09%左右??蛻舻哪康氖穷A(yù)測(cè)高概率購(gòu)買(mǎi)用戶,為銷(xiāo)售人員提供潛客名單,從而降低工作量,增加意向成功率。
分類(lèi)預(yù)測(cè)問(wèn)題的方案設(shè)計(jì)框架通常需要引入機(jī)器學(xué)習(xí)分類(lèi)算法,基于歷史數(shù)據(jù)的學(xué)習(xí),最終選擇分類(lèi)精度較好的分類(lèi)算法區(qū)構(gòu)建模型,從而達(dá)到客戶目標(biāo)。
3、聚類(lèi)分析
聚類(lèi)分析是根據(jù)已知樣本特征, 根據(jù)相似性將對(duì)象的集合分成多個(gè)類(lèi)的過(guò)程, 像用戶畫(huà)像,探索對(duì)象影響因素類(lèi)的研究都可以納入聚類(lèi)問(wèn)題框架, 聚類(lèi)問(wèn)題也可以作為分類(lèi)問(wèn)題框架中的一部分, 作為分類(lèi)之前的探索性步驟。
以公募基金的精準(zhǔn)營(yíng)銷(xiāo)分析項(xiàng)目為例。券商發(fā)行的公募基金產(chǎn)品,傳統(tǒng)的營(yíng)銷(xiāo)方式為外呼人員電話營(yíng)銷(xiāo)。造成工作量巨大,而且為外呼人員提供的是全量用戶,導(dǎo)致的客戶意向成功率比較低,造成不必要的成本浪費(fèi)。客戶的目標(biāo)是針對(duì)不同的客戶推薦不同的基金產(chǎn)品,提高意向成功用戶數(shù),從而達(dá)到精準(zhǔn)營(yíng)銷(xiāo)的目的。
以超市客群細(xì)分分析項(xiàng)目為例。目前我國(guó)的零售業(yè)已經(jīng)向外資全面開(kāi)放,零售業(yè)的全面開(kāi)放意味著外商可以通過(guò)多種經(jīng)營(yíng)方式從事商品流通。同時(shí),也意味著中國(guó)將進(jìn)一步融入經(jīng)濟(jì)全球化的潮流。超市是零售企業(yè)一種常見(jiàn)的經(jīng)營(yíng)方式,它與傳統(tǒng)的百貨零售企業(yè)相比較具有許多優(yōu)勢(shì),這幾年在許多大中小型城市發(fā)展非常迅速。但作為一般的商家要經(jīng)營(yíng)超市,也需要注意一些問(wèn)題,保證超市在當(dāng)前激烈的商業(yè)競(jìng)爭(zhēng)中生存和發(fā)展。不同超市企業(yè)之間的競(jìng)爭(zhēng)常常體現(xiàn)為對(duì)客戶資源的爭(zhēng)奪。誰(shuí)能夠?qū)蛻粲懈羁痰牧私庹l(shuí)就是最后的勝者。因此,分析超市客戶群體特征是超市經(jīng)營(yíng)企業(yè)面臨的話題??蛻舻哪繕?biāo)是對(duì)超市客戶的相關(guān)數(shù)據(jù)進(jìn)行聚類(lèi)分析,劃分不同客戶類(lèi)型,針對(duì)不同的客群特征,提供個(gè)性化的產(chǎn)品推薦,從而增加超市收入。
聚類(lèi)分析問(wèn)題的方案設(shè)計(jì)框架需要引入機(jī)器學(xué)習(xí)中的聚類(lèi)算法,尋找數(shù)據(jù)之間的共性特征。
4、關(guān)聯(lián)分析
關(guān)聯(lián)分析是從大量看似無(wú)關(guān)的數(shù)據(jù)中尋找隱含的規(guī)律、關(guān)系。
以蔬菜價(jià)格之間的關(guān)聯(lián)分析項(xiàng)目為例,蔬菜價(jià)格是居民消費(fèi)價(jià)格指數(shù)的重要組成部分,蔬菜的價(jià)格會(huì)受季節(jié)、天氣等多方面因素的影響,但許多會(huì)出現(xiàn)同漲或者同跌等現(xiàn)象,到底哪些蔬菜之間存在這種關(guān)系?客戶的目標(biāo)是對(duì)不同蔬菜價(jià)格波動(dòng)的關(guān)聯(lián)性進(jìn)行分析,則有助于為防范蔬菜價(jià)格的同期劇烈波動(dòng)提供新思路。
關(guān)聯(lián)分析問(wèn)題的方案設(shè)計(jì)框架通常需要引入機(jī)器學(xué)習(xí)的關(guān)聯(lián)規(guī)則算法,通過(guò)大量的歷史數(shù)據(jù),尋找數(shù)據(jù)之間的隱含的規(guī)律或某種關(guān)系。
5、時(shí)間序列
時(shí)間序列是通過(guò)與當(dāng)前預(yù)測(cè)時(shí)間點(diǎn)相近的歷史時(shí)刻的數(shù)據(jù)來(lái)預(yù)測(cè)當(dāng)時(shí)時(shí)刻的值。
以應(yīng)用系統(tǒng)負(fù)載分析與磁盤(pán)容量預(yù)測(cè)分析項(xiàng)目為例。某大型企業(yè)為了信息化發(fā)展的需要,建設(shè)了辦公自動(dòng)化系統(tǒng)、人力資源管理系統(tǒng)、財(cái)務(wù)系統(tǒng),企業(yè)信息門(mén)戶系統(tǒng)等幾個(gè)大企業(yè)級(jí)應(yīng)用系統(tǒng)。因應(yīng)用系統(tǒng)在日常運(yùn)行時(shí),會(huì)對(duì)底層軟、硬件造成負(fù)荷,顯著影響應(yīng)用系統(tǒng)性能,影響應(yīng)用系統(tǒng)性能的因素包括:服務(wù)器、數(shù)據(jù)庫(kù)、中間件和存儲(chǔ)設(shè)備。任何一種資源負(fù)載過(guò)大,都可能會(huì)引起應(yīng)用系統(tǒng)性能下降甚至癱瘓。因此需要關(guān)注服務(wù)器、數(shù)據(jù)庫(kù)、中間件和存儲(chǔ)設(shè)備的運(yùn)行狀態(tài),及時(shí)了解當(dāng)前應(yīng)用系統(tǒng)的負(fù)載情況,以便提前預(yù)防,確保系統(tǒng)安全穩(wěn)定運(yùn)行。客戶的目標(biāo)是預(yù)測(cè)應(yīng)用系統(tǒng)服務(wù)器磁盤(pán)已使用空間大小,根據(jù)用戶需求設(shè)置不同的預(yù)警等級(jí),將預(yù)測(cè)值與容量值進(jìn)行比較,對(duì)其結(jié)果進(jìn)行預(yù)警判斷,為系統(tǒng)管理員提供定制化的預(yù)警提示。
時(shí)間序列問(wèn)題的方案設(shè)計(jì)框架通常需要引入機(jī)器學(xué)習(xí)的時(shí)間序列算法。
6、綜合評(píng)價(jià)
綜合評(píng)價(jià)是針對(duì)多個(gè)評(píng)價(jià)維度,實(shí)現(xiàn)對(duì)個(gè)體的綜合評(píng)價(jià)。
以機(jī)組運(yùn)行狀態(tài)評(píng)價(jià)模型分析項(xiàng)目為例,狀態(tài)檢修(基于機(jī)組狀態(tài)預(yù)知大修)可顯著提高機(jī)組使用率,節(jié)省檢修維護(hù)成本,是主泵組大修模式未來(lái)發(fā)展的方向。目前客戶已經(jīng)積累了豐富的檢修數(shù)據(jù)、故障數(shù)據(jù)、運(yùn)行數(shù)據(jù),客戶的目標(biāo)是想要研究建設(shè)機(jī)組狀態(tài)檢修模型的可行性,以便為狀態(tài)檢修的實(shí)現(xiàn)打下基礎(chǔ)。
綜合評(píng)價(jià)問(wèn)題的方案設(shè)計(jì)框架通常需要引入機(jī)器學(xué)習(xí)的綜合評(píng)價(jià)算法,根據(jù)不同的評(píng)價(jià)維度,對(duì)目標(biāo)個(gè)人/群體進(jìn)行綜合打分。
信號(hào)是工業(yè)領(lǐng)域中多種時(shí)變要素的表示方式,它的數(shù)據(jù)類(lèi)型單一,次序和間隔包含時(shí)間信息,數(shù)字信號(hào)處理技術(shù)是工業(yè)數(shù)據(jù)分析的核心構(gòu)成要素。
以回轉(zhuǎn)設(shè)備監(jiān)測(cè)分析項(xiàng)目為例。回轉(zhuǎn)設(shè)備主要用于材料成型,是一種煅燒、焙燒或干燥粒狀及粉狀物料的熱工設(shè)備,這些設(shè)備造價(jià)高昂,更換困難,損失代價(jià)巨大。傳統(tǒng)的測(cè)量采用定時(shí)人工巡檢的方式,每天在一定的時(shí)間段內(nèi),在較遠(yuǎn)的距離條件下,使用手持式紅外溫度儀對(duì)抽取若干個(gè)點(diǎn)進(jìn)行溫度測(cè)量,數(shù)據(jù)來(lái)源較為粗放,且有一定的盲目性??蛻舻哪繕?biāo)是對(duì)這類(lèi)設(shè)備的健康狀態(tài)進(jìn)行監(jiān)測(cè),以保障設(shè)備總體運(yùn)行狀態(tài)可控。
信號(hào)分析問(wèn)題的方案設(shè)計(jì)框架需要引入平臺(tái)中的信號(hào)分析模塊的節(jié)點(diǎn)。
8、最優(yōu)化
以某污水廠爆氣預(yù)測(cè)分析項(xiàng)目為例,曝氣是污水處理工藝中的關(guān)鍵環(huán)節(jié),傳統(tǒng)的方法采用過(guò)渡曝氣的方式,增加了能耗成本,同時(shí),現(xiàn)有曝氣模型未考慮出水水質(zhì)指標(biāo)??蛻舻哪繕?biāo)是構(gòu)建基于兩級(jí)多目標(biāo)優(yōu)化(出水水質(zhì)、DO含量)的精準(zhǔn)曝氣模型,從而為保證出水水質(zhì)的情況下,降低企業(yè)能耗成本,為智能化污水廠賦能。
最優(yōu)化分析問(wèn)題的方案設(shè)計(jì)框架需要引入擴(kuò)展編程節(jié)點(diǎn),可以將優(yōu)化算法通過(guò)擴(kuò)展編程的方式進(jìn)行編寫(xiě),從而實(shí)現(xiàn)模型的尋優(yōu),最終找到最優(yōu)結(jié)果。