|
|
隨機森林算法,個人的簡單看法,相互討論
隨機森林(Random Forest)是屬于集成學(xué)習(xí)的一種組合分類算法(確切說是屬于bagging),集成學(xué)習(xí)的核心思想就是將若干個弱(基)分類器組合起來,得到一個分類性能顯著優(yōu)越的強分類器。如果各弱分類器之前沒有強依賴關(guān)系、可并行生成,就可以使用隨機森林算法。
隨機森林利用自主抽樣法(bootstrap)從原數(shù)據(jù)集中有放回地抽取多個樣本,對抽取的樣本先用弱分類器—決策樹進行訓(xùn)練,然后把這些決策樹組合在一起,通過投票得出最終的分類或預(yù)測結(jié)果。
隨機森林的生成方法
從樣本集中通過重采樣的方式產(chǎn)生n個樣本。
建設(shè)樣本特征數(shù)目為a,對n個樣本選擇a中的k個特征,用建立決策樹的方式獲得最佳分割點。
重復(fù)m次,產(chǎn)生m棵決策樹。
多數(shù)投票機制進行預(yù)測。
隨機森林中的隨機是什么意思?
隨機森林中的隨機性主要體現(xiàn)在兩個方面:
隨機采樣:隨機森林在計算每棵樹時,從全部訓(xùn)練樣本(樣本數(shù)為n)中選取一個可能有重復(fù)的、大小同樣為n的數(shù)據(jù)集進行訓(xùn)練(即booststrap采樣)。
特征選取的隨機性:在每個節(jié)點隨機選取所有特征的一個子集,用來計算最佳分割方式。
隨機森林的優(yōu)點:
表現(xiàn)性能好,與其他算法相比有著很大優(yōu)勢。
隨機森林能處理很高維度的數(shù)據(jù)(也就是很多特征的數(shù)據(jù)),并且不用做特征選擇。
在訓(xùn)練完之后,隨機森林能給出哪些特征比較重要。
訓(xùn)練速度快,容易做成并行化方法(訓(xùn)練時,樹與樹之間是相互獨立的)。
在訓(xùn)練過程中,能夠檢測到feature之間的影響。
對于不平衡數(shù)據(jù)集來說,隨機森林可以平衡誤差。當(dāng)存在分類不平衡的情況時,隨機森林能提供平衡數(shù)據(jù)集誤差的有效方法。
如果有很大一部分的特征遺失,用RF算法仍然可以維持準確度。
隨機森林算法有很強的抗干擾能力(具體體現(xiàn)在6,7點)。所以當(dāng)數(shù)據(jù)存在大量的數(shù)據(jù)缺失,用RF也是不錯的。
隨機森林抗過擬合能力比較強(雖然理論上說隨機森林不會產(chǎn)生過擬合現(xiàn)象,但是在現(xiàn)實中噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但沒有辦法完全消除過擬合,無論怎么增加樹都不行,再說樹的數(shù)目也不可能無限增加的。)
隨機森林能夠解決分類與回歸兩種類型的問題,并在這兩方面都有相當(dāng)好的估計表現(xiàn)。(雖然RF能做回歸問題,但通常都用RF來解決分類問題)。
在創(chuàng)建隨機森林時候,對generlization error(泛化誤差)使用的是無偏估計模型,泛化能力強。
隨機森林的缺點:
隨機森林在解決回歸問題時,并沒有像它在分類中表現(xiàn)的那么好,這是因為它并不能給出一個連續(xù)的輸出。當(dāng)進行回歸時,隨機森林不能夠做出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這可能導(dǎo)致在某些特定噪聲的數(shù)據(jù)進行建模時出現(xiàn)過度擬合。(PS:隨機森林已經(jīng)被證明在某些噪音較大的分類或者回歸問題上回過擬合)。
對于許多統(tǒng)計建模者來說,隨機森林給人的感覺就像一個黑盒子,你無法控制模型內(nèi)部的運行。只能在不同的參數(shù)和隨機種子之間進行嘗試。
可能有很多相似的決策樹,掩蓋了真實的結(jié)果。
對于小數(shù)據(jù)或者低維數(shù)據(jù)(特征較少的數(shù)據(jù)),可能不能產(chǎn)生很好的分類。(處理高維數(shù)據(jù),處理特征遺失數(shù)據(jù),處理不平衡數(shù)據(jù)是隨機森林的長處)。
執(zhí)行數(shù)據(jù)雖然比boosting等快(隨機森林屬于bagging),但比單只決策樹慢多了。
|
-
-
算法分析.docx
2019-11-13 17:31 上傳
點擊文件名下載附件
下載積分: 黑幣 -5
13.23 KB, 下載次數(shù): 2, 下載積分: 黑幣 -5
評分
-
查看全部評分
|