【數(shù)據(jù)挖掘算法分享】機器學(xué)習(xí)平臺——回歸算法之決策樹回歸
2022-08-11 18:06:06
次
決策樹回歸算法是通過構(gòu)建決策樹來進行回歸預(yù)測,在創(chuàng)建回歸樹時,使用最小剩余方差來決定回歸樹的最優(yōu)化分,該劃分準(zhǔn)則是期望劃分之后的子樹誤差方差最小。創(chuàng)建模型樹,每個葉子節(jié)點都是一個機器學(xué)習(xí)模型,如線性回歸模型。
算法說明
決策樹算法是一種流行的機器學(xué)習(xí)算法,可用于分類和回歸任務(wù)。決策樹算法由于以下幾點使其得到廣泛應(yīng)用:
1)易于解釋;
2)可以處理名詞型屬性;
3)可以擴展到多分類問題;
4)不需要對特征進行縮放處理(歸一化等);
5)可以對有相關(guān)關(guān)系的特征進行處理。
決策樹算法的核心是樹的分裂(又稱分裂屬性或樣本劃分),所謂分裂屬性就是在某個節(jié)點處按照某一屬性的不同劃分構(gòu)造不同的分支,其目標(biāo)是讓各個分裂子集盡可能地“純”。所謂盡可能“純”,對回歸而言,指的是結(jié)點中樣本的平方誤差達到最小。
決策樹的生成就是遞歸地構(gòu)建二叉樹的過程。對于回歸問題,用平方誤差最小化準(zhǔn)則,進行特征選擇,生成二叉回歸樹。
假設(shè)X與Y分別為 輸入和輸出變量,給定訓(xùn)練數(shù)據(jù)集。
決策樹回歸的過程如下:
一個回歸樹對應(yīng)著輸入空間(即特征空間)的一個劃分以及在劃分的單元上的輸出值。假設(shè)已將輸入空間劃分為M個單元R_1,R_2,?,R_M,并且在每個單元R_m上有一個固定的輸出值c_m,于是回歸樹模型可以表示為:
當(dāng)輸入空間的劃分確定時,可以用平方誤差來表示回歸樹對于訓(xùn)練數(shù)據(jù)的預(yù)測誤差,用平方誤差最小的準(zhǔn)則求解每個單元上的最優(yōu)輸出值。
問題是怎樣對輸入空間進行劃分。這里采用啟發(fā)式的方法,選擇第j個變量x^((j))和它取的值s,作為切分變量和切分點,并定義兩個區(qū)域:
然后尋找最優(yōu)切分變量j和最優(yōu)切分點s。具體地,求解:
對固定輸入變量j可以找到最優(yōu)的切分點s.
其中,c_1和c_2的估計為:
遍歷所有輸入變量,找到最優(yōu)的切分變量j,構(gòu)成一個對(j,s)。依此將輸入空間劃分為兩個區(qū)域。接著,對每個區(qū)域重復(fù)上述劃分過程,直到滿足停止條件為止(結(jié)點內(nèi)樣本的平方誤差小于給定閾值)。
數(shù)據(jù)格式
必須設(shè)置類屬性(輸出),且類屬性(輸出)必須是連續(xù)型(數(shù)值);
非類屬性(輸入)可以是連續(xù)型(數(shù)值)也可以是離散型(名詞);
參數(shù)說明
| 參數(shù) |
類型 |
描述 |
| 信息度量方式 |
下拉框 |
選擇信息度量方法,文本型,取值范圍:“variance”,默認(rèn)值為“variance” |
| 最大深度 |
文本框 |
樹的最大深度,整型,取值范圍:[1,∞),默認(rèn)值為5 |
| 最大份數(shù) |
文本框 |
數(shù)值型屬性分割份數(shù)設(shè)置,整型,取值范圍:[2,∞),默認(rèn)值為32 |
| 是否顯示變量重要性 |
復(fù)選框 |
用戶選擇是否分析每個變量對于回歸結(jié)果的影響程度,如果選擇是,則在洞察中顯示參與建模的每個變量對于模型的貢獻程度情況 |
演示實例
在TempoAI機器學(xué)習(xí)平臺中構(gòu)建如下流程:
【文件輸入】節(jié)點配置如下:
【設(shè)置角色】節(jié)點配置如下:
【決策樹回歸】節(jié)點配置如下:
流程運行結(jié)果如下: