Метад выпадковага лесу

Метад выпадковага лесу
Метад выпадковага лесу
Дата заснавання / стварэння	2001
Першаадкрывальнік	Leo Breiman[d]
	Медыяфайлы на Вікісховішчы

Метад выпадковага лесу (англ.: random forest) — алгарытм машыннага навучання, прапанаваны Леа Брэйманам (руск.) (бел. і Адэль Катлер (англ.) (бел., які зводзіцца да выкарыстання ансамбля дрэў рашэнняў (руск.) (бел.. Алгарытм спалучае ў сабе дзве асноўныя ідэі: метад бэгінга (руск.) (бел. Брэймана і метад выпадковых падпрастор (англ.) (бел., прапанаваны Цін Кам Хо (англ.) (бел.. Алгарытм ужываецца для задач класіфікацыі, рэгрэсіі і кластарызацыі. Асноўная ідэя зводзіцца да выкарыстання вялікага ансамбля (руск.) (бел. дрэў рашэнняў (руск.) (бел., кожнае з якіх само па сабе дае вельмі невысокую якасць класіфікацыі, але за кошт іх вялікай колькасці вынік атрымліваецца добрым.

Алгарытм навучання класіфікатара

Няхай навучальная выбарка складаецца з N узораў, размернасць прасторы прыкмет роўная M, і зададзены параметр m (у задачах класіфікацыі звычайна $m\approx {\sqrt {M}}$ ) як няпоўная колькасць прыкмет для навучання.

Найбольш распаўсюджаны спосаб пабудовы дрэў ансамбля — бэгінг (руск.) (бел. (англ.: bagging, скарачэнне ад англ.: bootstrap aggregation) — адбываецца наступным чынам:

Згенеруем выпадковую паўторную выбарку (руск.) (бел. памерам $N$ з навучальнай выбаркі. Некаторыя ўзоры трапяць у яе два ці больш разы, тады як у сярэднім $N(1-1/N)^{N}$ (пры вялікіх $N$ прыкладна $N/e$ , дзе $e$ — аснова натуральнага лагарыфма) узораў аказваюцца тымі, якія не ўвайшлі ў набор або неадабранымі (англ.: out-of-bag).
Пабудаваць дрэва рашэнняў (руск.) (бел., класіфікуе ўзоры дадзенай падвыбаркі, прычым у ходзе стварэння чарговага вузла дрэва будзем выбіраць набор прыкмет, на аснове якіх вырабляецца разбіццё (не з усіх M прыкмет, а толькі з m выпадкова выбраных). Выбар найлепшай з гэтых m прыкмет можа ажыццяўляцца рознымі спосабамі. У арыгінальным метадзе Брэймана выкарыстоўваецца крытэрый Джыні, які прымяняецца таксама ў алгарытме пабудовы вырашальных дрэў CART (руск.) (бел.. У некаторых рэалізацыях алгарытму замест яго выкарыстоўваецца крытэрый прыросту інфармацыі.
Дрэва будуецца да поўнага вычарпання падвыбаркі і не падвяргаецца працэдуры прунінга (англ.) (бел. — адсячэнне галін), у адрозненне ад дрэў рашэнняў алгарытмаў накшталт CART (руск.) (бел. або C4.5 (руск.) (бел..

Класіфікацыя аб’ектаў праводзіцца шляхам галасавання: кожнае дрэва камітэта адносіць класіфікавальны аб’ект да аднаго з класаў, а перамагае клас, за які прагаласавала найбольшая колькасць дрэў.

Аптымальная колькасць дрэў падбіраецца такім чынам, каб мінімізаваць памылку класіфікатара на тэставай выбарцы. У выпадку яе адсутнасці, мінімізуецца ацэнка памылкі на ўзорах, якія не ўвайшлі ў набор.

Ацэнка важнасці пераменных

Выпадковыя лясы, якія атрымліваюцца апісанымі вышэй метадамі, могуць быць натуральным чынам выкарыстаны для ацэнкі важнасці пераменных у задачах рэгрэсіі і класіфікацыі. Наступны спосаб такой ацэнкі быў апісаны Брэйманам.

Першы крок у ацэнцы важнасці пераменнай у трэніровачным наборы ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ — трэніроўка выпадковага лесу на гэтым наборы. Падчас працэсу пабудовы мадэлі для кожнага элемента трэніровачнага набору запісваецца так званая памылка неадабраных элементаў (англ.: out-of-bag error). Затым для кожнай сутнасці такая памылка асерадняецца па ўсім выпадковым лесе.

Каб ацаніць важнасць $j$ -га параметру пасля трэніроўкі, значэнні $j$ -га параметру змешваюцца для ўсіх запісаў трэніровачнага набору і памылка неадабраных элементаў вылічваецца зноў. Важнасць параметру ацэньваецца шляхам асераднення па ўсіх дрэвах рознасці паказчыкаў памылак неадабраных элементаў да і пасля мяшання значэнняў. Пры гэтым значэнні такіх памылак нармалізуюцца на стандартнае адхіленне.

Параметры выбаркі, якія даюць вялікія значэнні, лічацца больш важнымі для трэніровачнага набору. Метад мае патэнцыйны недахоп — для катэгарыяльных пераменных з вялікай колькасцю значэнняў метад схільны лічыць такія пераменныя больш важнымі. Частковае перамешванне значэнняў у гэтым выпадку можа зніжаць ўплыў гэтага эфекту^[1]^[2]. З груп карэліруючых параметраў, важнасць якіх аказваецца аднолькавай, выбіраюцца меншыя па колькасці групы^[3].

Перавагі

Здольнасць эфектыўна апрацоўваць дадзеныя з вялікім лікам прыкмет (руск.) (бел. і класаў.
Неадчувальнасць да маштабавання (і наогул да любых манатонных пераўтварэнняў) значэнняў прыкмет.
Аднолькава добра апрацоўваюцца як бесперапынныя, так і дыскрэтныя прыкметы. Існуюць метады пабудовы дрэў па дадзеных з прапушчанымі значэннямі прыкмет.
Існуюць метады ацэньвання значнасці (руск.) (бел. асобных прыкмет у мадэлі.
Унутраная ацэнка здольнасці мадэлі да абагульнення (тэст па неадабраных узорах).
Высокая паралелізавальнасць і маштабаванасць (руск.) (бел..

Недахопы

Вялікі памер атрыманых мадэляў. Патрабуецца $O(K)$ памяці для захоўвання мадэлі, дзе $K$ — колькасць дрэў.

Выкарыстанне ў навуковых працах

Алгарытм выкарыстоўваецца ў навуковых працах, напрыклад, для ацэнкі якасці артыкулаў Вікіпедыі^[4]^[5]^[6].

Зноскі

↑ Deng,H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.
↑ Altmann A., Tolosi L., Sander O., Lengauer T. Permutation importance:a corrected feature importance measure(англ.) // Bioinformatics : journal. — 2010. — DOI:10.1093/bioinformatics/btq134
↑ Tolosi L., Lengauer T. Classification with correlated features: unreliability of feature ranking and solutions.(англ.) // Bioinformatics : journal. — 2011. — DOI:10.1093/bioinformatics/btr300
↑ Węcel K., Lewoniewski W. Modelling the Quality of Attributes in Wikipedia Infoboxes(англ.) // Lecture Notes in Business Information Processing : journal. — 2015. — Т. 228. — С. 308—320. — DOI:10.1007/978-3-319-26762-3_27
↑ Lewoniewski W., Węcel K., Abramowicz W. Quality and Importance of Wikipedia Articles in Different Languages(англ.) // Information and Software Technologies. ICIST 2016. Communications in Computer and Information Science : journal. — 2016. — Т. 639. — С. 613—624. — DOI:10.1007/978-3-319-46254-7_50
↑ Warncke-Wang M., Cosley D., Riedl J. Tell me more: An actionable quality model for wikipedia(англ.) // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : journal. — 2013. — DOI:10.1145/2491055.2491063

Літаратура

Hastie, T., Tibshirani R., Friedman J. Chapter 15. Random Forests // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. — Springer-Verlag, 2009. — 746 p. — ISBN 978-0-387-84857-0..

Спасылкі

Рэалізацыі

Аўтарская рэалізацыя Брэймана і Катлер на мове Fortran 77
Пакет randomForest для R — партаванай версіі арыгінальнага аўтарскага коду ў R
Пакет party для R, змяшчае мадыфікацыю алгарытму
Рэалізацыя мадыфікацыі алгарытму на alglib.sources.ru
FastRandomForest
Apache MahoutАрхівавана 2 красавіка 2015..

[1] Deng,H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293–300.

[2] Altmann A., Tolosi L., Sander O., Lengauer T. Permutation importance:a corrected feature importance measure(англ.) // Bioinformatics : journal. — 2010. — DOI:10.1093/bioinformatics/btq134

[3] Tolosi L., Lengauer T. Classification with correlated features: unreliability of feature ranking and solutions.(англ.) // Bioinformatics : journal. — 2011. — DOI:10.1093/bioinformatics/btr300

[4] Węcel K., Lewoniewski W. Modelling the Quality of Attributes in Wikipedia Infoboxes(англ.) // Lecture Notes in Business Information Processing : journal. — 2015. — Т. 228. — С. 308—320. — DOI:10.1007/978-3-319-26762-3_27

[5] Lewoniewski W., Węcel K., Abramowicz W. Quality and Importance of Wikipedia Articles in Different Languages(англ.) // Information and Software Technologies. ICIST 2016. Communications in Computer and Information Science : journal. — 2016. — Т. 639. — С. 613—624. — DOI:10.1007/978-3-319-46254-7_50

[6] Warncke-Wang M., Cosley D., Riedl J. Tell me more: An actionable quality model for wikipedia(англ.) // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : journal. — 2013. — DOI:10.1145/2491055.2491063

[1]

[2]

[3]

[4]

[5]

[6]

Слоўнікі і энцыклапедыі	Вялікая кітайская · Вялікая кітайская
Нарматыўны кантроль	Microsoft: 169258074