數(shù)據(jù)挖掘?qū)崙?zhàn)指南:回歸分析流程詳解與模型預(yù)測(cè)
2023-12-11 18:00:18
次
回歸分析作為一種數(shù)據(jù)挖掘方法,主要用于預(yù)測(cè)數(shù)值型數(shù)據(jù),通過(guò)研究自變量和因變量之間的數(shù)量變化關(guān)系,可以幫助預(yù)測(cè)房?jī)r(jià)、股票的成交額、未來(lái)的天氣情況等。屬于有監(jiān)督學(xué)習(xí)。

回歸分析流程步驟如下:
第一步接入數(shù)據(jù):
回歸算法要求接入結(jié)構(gòu)化數(shù)據(jù),自變量數(shù)據(jù)類型必須為數(shù)值型或字符型,不支持日期型和文本型。因變量只能為數(shù)值型。若接入自變量和因變量數(shù)據(jù)不滿足回歸分析的數(shù)據(jù)要求,可以通過(guò)屬性變化節(jié)點(diǎn)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換或重新接入數(shù)據(jù)。數(shù)據(jù)的接入方式通過(guò)平臺(tái)內(nèi)置的數(shù)據(jù)輸入節(jié)點(diǎn),包括:關(guān)系數(shù)據(jù)庫(kù)輸入、文件輸入、InfluxDB輸入、HIVE輸入、API輸入等。
第二步設(shè)置角色:
根據(jù)預(yù)測(cè)目標(biāo),通過(guò)設(shè)置角色節(jié)點(diǎn)確定回歸分析研究的自變量與因變量,評(píng)估自變量對(duì)因變量的具體影響?;貧w算法必須設(shè)置自變量,自變量可以是連續(xù)型(數(shù)值)也可以是離散型(字符),也必須設(shè)置因變量,且因變量只能是一個(gè)連續(xù)型(數(shù)值)。當(dāng)然在設(shè)置角色節(jié)點(diǎn)之前也可以根據(jù)實(shí)際業(yè)務(wù)和數(shù)據(jù)情況進(jìn)行原始數(shù)據(jù)的清洗、集成、轉(zhuǎn)換、離散、歸約、特征選擇和提取等一系列預(yù)處理工作,達(dá)到挖掘建模的數(shù)據(jù)標(biāo)準(zhǔn)??梢岳闷脚_(tái)內(nèi)置的數(shù)據(jù)處理、數(shù)據(jù)融合和特征工程等節(jié)點(diǎn),例如數(shù)據(jù)過(guò)濾、屬性過(guò)濾、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化等進(jìn)行數(shù)據(jù)預(yù)處理。
第三步數(shù)據(jù)拆分:
通常在解決實(shí)際問(wèn)題時(shí)經(jīng)常通過(guò)數(shù)據(jù)拆分節(jié)點(diǎn)把數(shù)據(jù)拆分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。通過(guò)回歸算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行建模,尋找X和Y之間的數(shù)學(xué)模型,然后通過(guò)測(cè)試數(shù)據(jù)集來(lái)驗(yàn)證該數(shù)學(xué)模型的準(zhǔn)確率,如果誤差能夠達(dá)控制到一定精度,則認(rèn)為該模型很好的反映了X和Y的關(guān)系,可以用來(lái)進(jìn)行預(yù)測(cè)和分析。
第四步建立數(shù)據(jù)挖掘模型:
根據(jù)分析方案和處理后的業(yè)務(wù)數(shù)據(jù)構(gòu)建回歸模型,平臺(tái)內(nèi)置9種回歸算法可以直接拖拽使用,并配置對(duì)應(yīng)的模型參數(shù),包括:線性回歸、決策樹回歸、隨機(jī)森林回歸、梯度提升樹回歸、BP神經(jīng)網(wǎng)絡(luò)回歸、SVM回歸、L1/2稀疏迭代回歸、保序回歸和曲線回歸。當(dāng)我們不清楚當(dāng)前數(shù)據(jù)更適合哪種回歸算法,或不清楚多個(gè)模型中哪個(gè)模型效果更好時(shí),我們有兩種處理方案:方案一,通過(guò)多分支節(jié)點(diǎn)將自變量和因變量相同的輸入數(shù)據(jù)同時(shí)傳遞給多個(gè)不同的回歸模型,由平臺(tái)推薦出多個(gè)模型中的最優(yōu)模型;第二種,通過(guò)自動(dòng)回歸節(jié)點(diǎn)選擇多個(gè)回歸算法一次性構(gòu)建模型,該節(jié)點(diǎn)內(nèi)嵌自動(dòng)擇參和交叉驗(yàn)證等功能,幫助我們?cè)诙喾N模型下選擇和推薦出最佳的模型。當(dāng)然在進(jìn)行回歸分析之前,我們可以先了解自變量和因變量之間的相關(guān)關(guān)系,以便判斷后續(xù)采取回歸模型的類型,比如通過(guò)圖表分析類節(jié)點(diǎn)繪制圖形或通過(guò)統(tǒng)計(jì)分析類節(jié)點(diǎn)進(jìn)行相關(guān)性分析等都可以。
第五步數(shù)據(jù)挖掘模型評(píng)估:
利用回歸評(píng)估節(jié)點(diǎn)檢驗(yàn)回歸模型的可靠性,在洞察中根據(jù)一些評(píng)價(jià)的指標(biāo)(如相對(duì)誤差等指標(biāo))或者圖表展示,獲得質(zhì)量最佳的回歸模型。 完成上述建模之后執(zhí)行流程,流程執(zhí)行成功后自動(dòng)跳轉(zhuǎn)至洞察頁(yè)面,在洞察頁(yè)面點(diǎn)擊可以查看模型的分析結(jié)果,我們通過(guò)示例流程來(lái)詳細(xì)介紹。點(diǎn)擊【決策樹回歸】查看變量重要性:

從變量重要性圖中可以看出OverallQual對(duì)于房?jī)r(jià)的影響最大。
訓(xùn)練集評(píng)估結(jié)果:
測(cè)試集評(píng)估結(jié)果:
從R方上來(lái)看,訓(xùn)練集為0.93,測(cè)試集為0.89;從相對(duì)誤差來(lái)看,訓(xùn)練集的平均相對(duì)誤差為0.08,測(cè)試集的平均相對(duì)誤差為0.1,誤差相對(duì)較少;說(shuō)明模型效果較好。
殘差圖:
從殘差圖中可以看出,誤差在等于0的直線上下隨機(jī)波動(dòng),因此殘差不存在相關(guān)性,說(shuō)明模型效果較好。
再來(lái)看數(shù)據(jù)集的情況,可以看到新增的prediction預(yù)測(cè)結(jié)果列。
第六步利用模型預(yù)測(cè):
訓(xùn)練好模型之后,通過(guò)模型輸出節(jié)點(diǎn)將模型保存至模型庫(kù)中,然后就可以利用訓(xùn)練好的模型進(jìn)行預(yù)測(cè),一般我們建議構(gòu)建模型訓(xùn)練和模型預(yù)測(cè)兩個(gè)流程。通過(guò)模型讀取和模型利用節(jié)點(diǎn)進(jìn)行預(yù)測(cè)流程的構(gòu)建,并且可以將預(yù)測(cè)結(jié)果保存至數(shù)據(jù)庫(kù)或本地excel中,便于我們構(gòu)建BI可視化看板或其他第三方應(yīng)用。如下圖: