數(shù)據(jù)分析常見(jiàn)問(wèn)題的解決思路
2023-12-07 19:13:20
次
在數(shù)據(jù)分析項(xiàng)目中明確問(wèn)題類型后,即可根據(jù)不同的問(wèn)題初步設(shè)計(jì)解決思路,確定大致的解決問(wèn)題框架,公司參與了很多項(xiàng)目,積累了大量的業(yè)務(wù)知識(shí)和業(yè)務(wù)成果,我們面對(duì)的項(xiàng)目有很大可能存在可供參考的先例,借鑒歷史相似案例的模型設(shè)計(jì)思路可以提升項(xiàng)目交付效率,本文總結(jié)了幾個(gè)經(jīng)典具體問(wèn)題的解決思路。
1、尋找關(guān)鍵因素
關(guān)鍵因素是通過(guò)對(duì)大量的歷史數(shù)據(jù)分析,尋找影響結(jié)果的關(guān)鍵因素。在尋找關(guān)鍵因素時(shí),我們可以使用多種方法去提取影響目標(biāo)變量的關(guān)鍵因素??梢詫㈥P(guān)鍵因素的尋找問(wèn)題轉(zhuǎn)換為回歸問(wèn)題,在對(duì)于目標(biāo)變量為數(shù)值型時(shí),去構(gòu)建回歸模型,從而在模型中尋找出關(guān)鍵的因素和影響程度。又可以使用統(tǒng)計(jì)分析方法去尋找關(guān)鍵因素,比如主成分分析、因子分析、卡方檢驗(yàn)、lasso、F檢驗(yàn)等。
例如某地PM2.5影響因素分析項(xiàng)目中,PM2.5是空氣中直徑小于2.5微米的顆粒物,能夠長(zhǎng)時(shí)間懸浮在空中,其能夠長(zhǎng)時(shí)間懸浮在空中,因其粒徑較小,表面積大,易于集聚有毒物質(zhì),是霾的成因之一。它隨著呼吸進(jìn)入到人體肺部,危害人體的呼吸系統(tǒng)和心血管系統(tǒng),導(dǎo)致咳嗽、心率失常等疾病的發(fā)生,對(duì)心肺病患危害尤為重要??蛻舻哪繕?biāo)是哪些因素對(duì)產(chǎn)生PM2.5息息相關(guān),根據(jù)已有PM2.5的歷史樣本信息判斷PM2.5含量,從而尋找出關(guān)鍵因素。使用回歸算法建議PM2.5預(yù)測(cè)模型,從而得到影響PM2.5的因素為一氧化氮、觀測(cè)數(shù)據(jù)發(fā)生的時(shí)間點(diǎn)、臭氧等。
2、預(yù)測(cè)分析
一般對(duì)于預(yù)測(cè)分析問(wèn)題,根據(jù)業(yè)務(wù)目標(biāo)和數(shù)據(jù)類型可以判斷屬于回歸問(wèn)題還是分類問(wèn)題,確定問(wèn)題類型之后,可以將其進(jìn)行轉(zhuǎn)換處理。當(dāng)目標(biāo)變量為字符型時(shí),判斷屬于分類問(wèn)題,可以使用分類算法去解決,當(dāng)目標(biāo)變量為數(shù)值型時(shí),判斷屬于回歸問(wèn)題,可以使用回歸算法去解決,但有時(shí)候可以將分類問(wèn)題轉(zhuǎn)換成回歸問(wèn)題進(jìn)行處理。
例如在石油壓裂井預(yù)測(cè)項(xiàng)目中,原來(lái)的目標(biāo)是預(yù)測(cè)是否對(duì)油井壓裂,但是實(shí)際模型實(shí)施過(guò)程中,需要知道油井壓裂后具體的產(chǎn)量,從而根據(jù)產(chǎn)品去判斷是否給井上壓。這時(shí)就可以將油井是否壓裂預(yù)測(cè)轉(zhuǎn)變?yōu)橛途畨毫阎螽a(chǎn)油量情況,就需要使用回歸方法進(jìn)行產(chǎn)油量的預(yù)測(cè),得到產(chǎn)油量預(yù)測(cè)結(jié)果,結(jié)合現(xiàn)有的業(yè)務(wù)規(guī)則進(jìn)行結(jié)果的區(qū)間劃分,從而去挑選出需要壓裂的井信息,為業(yè)務(wù)人員做參考。
3、評(píng)價(jià)類問(wèn)題的定性和定量解法
定性評(píng)價(jià)和定量評(píng)價(jià)是什么。簡(jiǎn)單來(lái)說(shuō),定量評(píng)價(jià)是將評(píng)價(jià)指標(biāo)量化,并采用模型和數(shù)學(xué)統(tǒng)計(jì)方法對(duì)評(píng)價(jià)對(duì)象做出判斷。定性評(píng)價(jià)是帶有主觀性的評(píng)價(jià)做出判斷。
在實(shí)際的分析項(xiàng)目中經(jīng)常會(huì)遇到“設(shè)備運(yùn)行狀態(tài)評(píng)價(jià)”等這種評(píng)價(jià)類的問(wèn)題,首先去判斷給出的指標(biāo)類型,從而判斷是使用定性評(píng)價(jià)還是定量評(píng)價(jià),有時(shí)候?yàn)榱烁珳?zhǔn)的把每一類設(shè)備或者用戶進(jìn)行描述,需要將定性和定量的方法結(jié)合起來(lái)進(jìn)行綜合的描繪。
例如在泵站機(jī)組運(yùn)行狀態(tài)評(píng)價(jià)中,利用泵站機(jī)組的擺度方數(shù)據(jù)、振動(dòng)數(shù)據(jù)、瓦溫、油溫?cái)?shù)據(jù)、電機(jī)數(shù)據(jù)等,基于AHP層次分析法綜合評(píng)價(jià)算法,構(gòu)建泵組機(jī)組運(yùn)行狀態(tài)評(píng)價(jià)模型,從而實(shí)現(xiàn)水泵機(jī)組實(shí)時(shí)運(yùn)行狀態(tài)的綜合評(píng)價(jià)。
例如設(shè)備運(yùn)行狀態(tài)的重過(guò)載精準(zhǔn)預(yù)測(cè),基于設(shè)備的基本信息數(shù)據(jù)、資產(chǎn)信息數(shù)據(jù)、投入信息數(shù)據(jù)、運(yùn)行數(shù)據(jù)等,利用綜合評(píng)價(jià)算法完成設(shè)備運(yùn)行狀態(tài)智能感知,并將其結(jié)果劃分為優(yōu)、良、劣、差四級(jí)?;谠u(píng)價(jià)結(jié)果,再結(jié)合設(shè)備投運(yùn)年限、設(shè)備半年內(nèi)重過(guò)載情況、設(shè)備上一年同期運(yùn)行情況等數(shù)據(jù),利用分類算法可以預(yù)測(cè)出哪些配變下個(gè)月的哪一天會(huì)發(fā)生重過(guò)載,為檢修部門提供精準(zhǔn)維護(hù)配變名單。
4、信號(hào)分析
信號(hào)是工業(yè)領(lǐng)域中多種時(shí)變要素的表示方式,它不同于關(guān)系型業(yè)務(wù)數(shù)據(jù)的特殊性,屬于單一數(shù)據(jù)類型,次序與間隔包含時(shí)間信息,使其難以直接使用現(xiàn)有數(shù)據(jù)分析工具,并且大量的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法難以直接應(yīng)用于原生信號(hào)數(shù)據(jù)形式。因此平臺(tái)針對(duì)信號(hào)數(shù)據(jù)擁有特有的信號(hào)接入,信號(hào)處理,信號(hào)特征提取等算法去對(duì)信號(hào)數(shù)據(jù)進(jìn)行分析。主要的分析思路可根據(jù)下方進(jìn)行構(gòu)建。