為何大家都看重決策樹(shù)?
決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀(guān)運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別。
分類(lèi)樹(shù)(決策樹(shù))是一種十分常用的分類(lèi)方法。它是一種監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類(lèi)別,這些類(lèi)別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類(lèi)器,這個(gè)分類(lèi)器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類(lèi)。這樣的機(jī)器學(xué)習(xí)就被稱(chēng)之為監(jiān)督學(xué)習(xí)。
機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型;他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹(shù)僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹(shù)以處理不同輸出。數(shù)據(jù)挖掘中決策樹(shù)是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。
從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí), 通俗說(shuō)就是決策樹(shù)。
一個(gè)決策樹(shù)包含三種類(lèi)型的節(jié)點(diǎn):
●決策節(jié)點(diǎn):通常用矩形框來(lái)表示
●機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來(lái)表示
●終結(jié)點(diǎn):通常用三角形來(lái)表示
決策樹(shù)學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu),它由它的分支來(lái)對(duì)該類(lèi)型的對(duì)象依靠屬性進(jìn)行分類(lèi)。每個(gè)決策樹(shù)可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。這個(gè)過(guò)程可以遞歸式的對(duì)樹(shù)進(jìn)行修剪。 當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類(lèi)可以被應(yīng)用于某一分支時(shí),遞歸過(guò)程就完成了。另外,隨機(jī)森林分類(lèi)器將許多決策樹(shù)結(jié)合起來(lái)以提升分類(lèi)的正確率。
決策樹(shù)同時(shí)也可以依靠計(jì)算條件概率來(lái)構(gòu)造。
決策樹(shù)如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。 數(shù)據(jù)庫(kù)已如下所示:
(x, y) = (x1, x2, x3…, xk, y)
相關(guān)的變量 Y 表示我們嘗試去理解,分類(lèi)或者更一般化的結(jié)果。 其他的變量x1, x2, x3 等則是幫助我們達(dá)到目的的變量。
優(yōu)點(diǎn)
決策樹(shù)易于理解和實(shí)現(xiàn),人們?cè)谠趯W(xué)習(xí)過(guò)程中不需要使用者了解很多的背景知識(shí),這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過(guò)解釋后都有能力去理解決策樹(shù)所表達(dá)的意義。
對(duì)于決策樹(shù),數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。
易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀(guān)察的模型,那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。
缺點(diǎn)
1)對(duì)連續(xù)性的字段比較難預(yù)測(cè)。
2)對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。
3)當(dāng)類(lèi)別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。
4)一般的算法分類(lèi)的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類(lèi)。
算法
1、C4.5
C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):
1) 用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;
2) 在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;
3) 能夠完成對(duì)連續(xù)屬性的離散化處理;
4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類(lèi)規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無(wú)法在內(nèi)存容納時(shí)程序無(wú)法運(yùn)行。
具體算法步驟如下;
1創(chuàng)建節(jié)點(diǎn)N
2如果訓(xùn)練集為空,在返回節(jié)點(diǎn)N標(biāo)記為Failure
3如果訓(xùn)練集中的所有記錄都屬于同一個(gè)類(lèi)別,則以該類(lèi)別標(biāo)記節(jié)點(diǎn)N
4如果候選屬性為空,則返回N作為葉節(jié)點(diǎn),標(biāo)記為訓(xùn)練集中最普通的類(lèi);
5for each 候選屬性 attribute_list
6if 候選屬性是連續(xù)的then
7對(duì)該屬性進(jìn)行離散化
8選擇候選屬性attribute_list中具有最高信息增益率的屬性D
9標(biāo)記節(jié)點(diǎn)N為屬性D
10for each 屬性D的一致值d
11由節(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為D=d的分支
12設(shè)s是訓(xùn)練集中D=d的訓(xùn)練樣本的集合
13if s為空
14加上一個(gè)樹(shù)葉,標(biāo)記為訓(xùn)練集中最普通的類(lèi)
15else加上一個(gè)有C4.5(R - {D},C,s)返回的點(diǎn)
2、CART
背景:
分類(lèi)與回歸樹(shù)(CART——Classification And Regression Tree)) 是一種非常有趣并且十分有效的非參數(shù)分類(lèi)和回歸方法。它通過(guò)構(gòu)建二叉樹(shù)達(dá)到預(yù)測(cè)目的。
分類(lèi)與回歸樹(shù)CART 模型最早由Breiman 等人提出,已經(jīng)在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中普遍使用。它采用與傳統(tǒng)統(tǒng)計(jì)學(xué)完全不同的方式構(gòu)建預(yù)測(cè)準(zhǔn)則,它是以二叉樹(shù)的形式給出,易于理解、使用和解釋。由CART 模型構(gòu)建的預(yù)測(cè)樹(shù)在很多情況下比常用的統(tǒng)計(jì)方法構(gòu)建的代數(shù)學(xué)預(yù)測(cè)準(zhǔn)則更加準(zhǔn)確,且數(shù)據(jù)越復(fù)雜、變量越多,算法的優(yōu)越性就越顯著。模型的關(guān)鍵是預(yù)測(cè)準(zhǔn)則的構(gòu)建,準(zhǔn)確的。
定義:
分類(lèi)和回歸首先利用已知的多變量數(shù)據(jù)構(gòu)建預(yù)測(cè)準(zhǔn)則, 進(jìn)而根據(jù)其它變量值對(duì)一個(gè)變量進(jìn)行預(yù)測(cè)。在分類(lèi)中, 人們往往先對(duì)某一客體進(jìn)行各種測(cè)量, 然后利用一定的分類(lèi)準(zhǔn)則確定該客體歸屬那一類(lèi)。例如, 給定某一化石的鑒定特征, 預(yù)測(cè)該化石屬那一科、那一屬, 甚至那一種。另外一個(gè)例子是, 已知某一地區(qū)的地質(zhì)和物化探信息, 預(yù)測(cè)該區(qū)是否有礦;貧w則與分類(lèi)不同, 它被用來(lái)預(yù)測(cè)客體的某一數(shù)值, 而不是客體的歸類(lèi)。例如, 給定某一地區(qū)的礦產(chǎn)資源特征, 預(yù)測(cè)該區(qū)的資源量。

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠(chǎng)展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
-
8月5日立即報(bào)名>> 【在線(xiàn)會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)