Перайсці да зместу

Статыстычная класіфікацыя

З Вікіпедыі, свабоднай энцыклапедыі

У статыстыцы класіфікацыя — задача вызначэння таго, да якой катэгорыі[en] адносіцца назіранне. Прыклады: аднясенне электроннага ліста да класа "спам" ці "не спам"[en], а таксама прызначэнне дыягназу пацыенту на аснове яго характарыстык (пол, крывяны ціск, наяўнасць або адсутнасць пэўных сімптомаў і г.д.).

Часта асобныя назіранні аналізуюцца паводле набору ўласцівасцей, вядомых як тлумачальныя зменныя або прыкметы. Гэтыя ўласцівасці могуць быць катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для групы крыві[en]), парадкавымі[en] (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Іншыя класіфікатары працуюць, параўноўваючы назіранні з папярэднімі назіраннямі з дапамогай функцыі падабенства[en] або адлегласці[en].

Алгарытмы класіфікацыі, асабліва ў канкрэтнай рэалізацыі, завуцца класіфікатарамі. Тэрмін «класіфікатар» таксама часам адносіцца да матэматычнай функцыі, рэалізаванай у алгарытме класіфікацыі, якая суадносіць уваходныя даныя з катэгорыяй.

Тэрміналогія ў розных галінах можа розніцца. У статыстыцы, дзе класіфікацыя часта робіцца праз лагістычную рэгрэсію[en] ці падобную працэдуру, уласцівасці назіранняў завуцца тлумачальнымі зменнымі (або незалежнымі зменнымі, рэгрэсарамі, і г.д.), а прагназаваныя катэгорыі вядомыя як вынікі, якія прызнаюцца магчымымі значэннямі залежнай зменнай. У машынным навучанні, назіранні часта вядомыя як прыклады, тлумачальныя зменныя завуцца прыкметамі[en] (згуртаванымі ў вектары прыкмет), а магчымая катэгорыі класамі. Іншыя галіны могуць карыстацца іншай тэрміналогіяй, напрыклад у экалогіі экасістэм[en] тэрмінам «класіфікацыя» звычайна завецца кластарны аналіз[en].

Сувязь з іншымі задачамі[правіць | правіць зыходнік]

Класіфікацыя і кластарызацыя — прыклады больш агульнай праблемы распазнавання ўзораў[en], якая заключаецца ў прысваенні выхаднога значэння зададзенаму ўваходнаму значэнню. Іншыя прыклады — рэгрэсія[en], якая прысвойвае рэчаіснае значэнне кожнаму запыту, разметка паслядоўнасці[en], якая прысвойвае клас кожнаму элементу паслядоўнасці значэнняў (напрыклад, разметка часцін мовы[en], якая вызначае часціну мовы кожнага слова ў сказе), сінтаксічны аналіз[en], які будуе сінтаксічнае дрэва[en] сказа, і г.д.

Вядомы раздзел класіфікацыі — імавернасная класіфікацыя[en]. Алгарытмы такога роду выкарыстоўваюць статыстычнае высноўванне[en], каб класіфікаваць назіранне. У адрозненне ад іншых алгарытмаў, якія проста знаходзяць найбольш імаверны клас, імавернасны алгарытм вызначае імавернасць таго, што назіранне адносіцца да кожнага з магчымых класаў. Такі алгарытм мае мноства пераваг перад неімавернаснымі класіфікатарамі:

  • Паказвае ўзровень упэўненасці алгарытму ў выбраным класе.
  • Адпаведна, можа ўстрымацца ад выбару калі ўпэўненасць у кожным з класаў занадта нізкая.
  • Дзякуючы вызначаным імавернасцям, такі класіфікатар можа быць больш удала спалучаны з большымі сістэмамі машыннага навучання, часткова ці поўнасцю ўнікаючы праблемы пашырэння памылкі.

Частотныя метады[правіць | правіць зыходнік]

Першыя работы ў галіне статыстычнай класіфікацыі належаць Рональду Фішэру[1][2]. Ён працаваў над задачай класіфікацыі з двума класамі і стварыў метад лінейнага дыскрымінанта[3]. Фішэр дапускаў, што даныя кожнага з двух класаў маюць многавымернае нармальнае размеркаванне. Таксама разглядалася пашырэнне метаду на больш чым два класы з тым абмежаваннем, што функцыя класіфікацыі мусіць быць лінейнай[3][4]. Пазнейшыя працы для многавымернага нармальнага размеркавання дапускалі нелінейныя класіфікатары[5]: пэўныя правілы класіфікацыі могуць быць атрыманыя на аснове розных дапасаванняў адлегласці Махаланобіса[en], пры гэтым новае назіранне адносіцца да класу, цэнтр якога мае найменшую адлегласць ад назірання.

Баесаўскія метады[правіць | правіць зыходнік]

У адрозненне ад частотных метадаў, метады баесаўскай класіфікацыі забяспечваюць натуральны спосаб уліку любой даступнай інфармацыі аб адносных памерах розных класаў у генеральнай сукупнасці[6]. Баесаўскія працэдуры, як правіла, вылічальна дарагія, і да таго, як з’явіліся вылічэнні Монтэ-Карла з ланцугамі Маркава[en], былі распрацаваны набліжэнні для баесаўскіх правіл класіфікацыі[7].

Некаторыя баесаўскія метады знаходзяць імавернасць прыналежнасці класу[en]: яны забяспечваюць больш інфарматыўны вынік, чым простае прысваенне адной меткі класа кожнаму новаму назіранню.

Бінарная і мнагакласавая класіфікацыя[правіць | правіць зыходнік]

Класіфікацыю можна разглядаць як дзве асобныя задачы — бінарную класіфікацыю[en] і мнагакласавую класіфікацыю[en]. У бінарнай класіфікацыі, больш зразумелай задачы, задзейнічаны толькі два класы, у той час як мнагакласавая класіфікацыя прадугледжвае прысваенне аб’екта аднаму з трох ці больш класаў[8]. Праз тое, што многія метады класіфікацыі былі распрацаваны адмыслова для бінарнай класіфікацыі, мнагакласавая класіфікацыя часта патрабуе супольнага выкарыстання некалькіх бінарных класіфікатараў.

Вектары прыкмет[правіць | правіць зыходнік]

Большасць алгарытмаў апісвае асобнае назіранне, клас якога павінны быць вызначаны з дапамогай вектара асобных, вымерных уласцівасцей назірання. Кожная ўласцівасць называецца прыкметай[en], таксама вядомай у статыстыцы як тлумачальная зменная (або незалежная зменная, хоць прыкметы могуць быць статыстычна незалежнымі, а могуць і не быць). Прыкметы могуць быць бінарнымі[en] (напрыклад, «уключана» ці «выключана»), катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для групы крыві[en]), парадкавымі[en] (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Калі назіранне гэта выява, значэнні прыкмет могуць адпавядаць яе пікселям; калі асобнік гэта фрагмент тэксту, значэннямі прыкмет могуць быць частоты з’яўлення розных слоў. Некаторыя алгарытмы працуюць толькі з дыскрэтнымі данымі і патрабуюць, каб рэчаісныя або цэлыя прыкметы былі разбіты на групы (напрыклад, менш за 5, паміж 5 і 10 або больш за 10).

Лінейныя класіфікатары[правіць | правіць зыходнік]

Вялікая колькасць алгарытмаў для класіфікацыі можа быць сфармулявана ў тэрмінах лінейнай функцыі, якая прысвойвае ацэнку кожнаму магчымаму класу шляхам камбінавання[en] вектара прыкмет назірання з вектарам вагаў, выкарыстоўваючы скалярны здабытак. У выніку назіранне адносіцца алгарытмам да класа з найбольшай ацэнкай. Гэты тып ацэначнай функцыі вядомы як лінейная прадказальная функцыя[en] і мае наступны агульны выгляд:

дзе  — вектар прыкмет для назірання ,  — вектар вагаў, адпаведных класу , а score(Xi, k) — ацэнка аднясення назірання да класа . У тэорыі дыскрэтнага выбару[en], дзе назіранні ўяўляюць людзей, а класы ўяўляюць выбары, адзнака будзе карыснасцю выбару чалавекам . Алгарытмы з такой базавай устаноўкай вядомыя як лінейныя класіфікатары[en]. Іх адрознівае працэдура вызначэння (навучання) аптымальных вагаў/каэфіцыентаў і спосаб інтэрпрэтацыі ацэнак. Прыклады такіх алгарытмаў:

Алгарытмы[правіць | правіць зыходнік]

Ніводная форма класіфікацыі не падыходзіць для ўсіх набораў даных, таму быў распрацаваны вялікі набор алгарытмаў класіфікацыі. Найбольш часта выкарыстоўваюцца:

Ацэнка якасці[правіць | правіць зыходнік]

Эфектыўнасць класіфікатара ў значнай ступені залежыць ад характарыстык даных, якія трэба класіфікаваць. Не існуе адзінага класіфікатара, які лепш за ўсё працуе для ўсіх задач (феномен, які можна растлумачыць тэарэмай аб адсутнасці бясплатнага абеду[en]). Былі праведзены розныя эмпірычныя выпрабаванні для параўнання эфектыўнасці класіфікатараў і пошуку характарыстык даных, якія вызначаюць эфектыўнасць класіфікатара. Вызначэнне найлепшага класіфікатара для пэўнай задачы, аднак, больш мастацтва чым навука.

Выразнасць і паўната[en] — папулярныя паказчыкі, якія ўжываюцца для ацэнкі якасці сістэмы класіфікацыі. ROC-крывыя[en] прымяняюцца для ацэнкі кампрамісу паміж праўдзіва і хібна пазітыўнымі вынікамі алгарытмаў класіфікацыі.

У якасці меры эфектыўнасці каэфіцыент нявызначанасці[en] мае перавагу перад простай дакладнасцю[en] ў тым, што на яго не ўплываюць адносныя памеры розных класаў[9]. Акрамя таго, гэты каэфіцыент не штрафуе алгарытм за перастаноўку класаў.

Сферы прымянення[правіць | правіць зыходнік]

Класіфікацыя мае шмат сфер прымянення. У некаторых з іх яна выкарыстоўваецца ў якасці працэдуры здабывання даных, у той час як у іншых праводзіцца больш дэталёвае статыстычнае мадэляванне.

Зноскі

  1. Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227.
  2. Fisher, R. A. (1938). "The Statistical Utilization of Multiple Measurements". Annals of Eugenics. 8 (4): 376–386. doi:10.1111/j.1469-1809.1938.tb02189.x. hdl:2440/15232.
  3. а б Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. ISBN 0-471-30845-5 (p. 83—86)
  4. Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
  5. Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
  6. Binder, D. A. (1978). "Bayesian cluster analysis". Biometrika. 65: 31–38. doi:10.1093/biomet/65.1.31.
  7. Binder, David A. (1981). "Approximations to Bayesian clustering rules". Biometrika. 68: 275–285. doi:10.1093/biomet/68.1.275.
  8. Har-Peled, S., Roth, D., Zimak, D. (2003) «Constraint Classification for Multiclass Classification and Ranking.» In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. ISBN 0-262-02550-7
  9. Peter Mills (2011). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing. 32 (21): 6109–6132. arXiv:1202.2194. Bibcode:2011IJRS...32.6109M. doi:10.1080/01431161.2010.507795. S2CID 88518570.