Вялікія дадзеныя

З пляцоўкі Вікіпедыя
Перайсці да: рух, знайсці
Візуалізацыя штодзенных правак Вікіпедыі, створаная IBM. Тэкст і малюнкі Вікіпедыі займаюць тэрабайты памяці і з'яўляюцца прыкладам вялікіх дадзеных.
Рост лічбавых магчымасцяў глабальнага захоўвання інфармацыі.[1]

Вялікія дадзеныя (вялікія звесткі) — тэрмін для пазначэння мностваў дадзеных (data sets), якія з'яўляюцца настолькі вялікімі і складанымі, што прыкладанні традыцыйнай апрацоўкі дадзеных не падыходзяць. Выклікі уключаюць аналіз, прадстаўленне (data curation), пошук, шарынг, захоўванне, перадачу, візуалізацыю, запыт і прыватнасць дадзеных. Гэты тэрмін часта азначае выкарыстанне прагнознай аналітыкі (predictive analytics) або пэўнымі іншымі прасунутымі метадамі выняцця значэнняў з дадзеных, і радзей вызначанага памеру мноства дадзеных. Дакладнасць у вялікіх дадзеных можа прывесці да больш упэўненага прыняцця рашэнняў, і лепшыя рашэнні могуць у выніку прывесці да аперацыйнай эфектыўнасці, зніжэння коштаў і рызыкаў.

Аналіз мностваў дадзеных можа знайсці новыя сувязі «кропкавых бізнэс тэндэнцый, прадухілення хваробаў, змаганне са злачыннасцю і інш.»[2] Навукоўцы, бізнэсмены, медыкі практыкі, рэкламшчыкі і ўрады вельмі часта сустракаюцца са складанасцямі з вялікімі дадзенымі, якія уключаюць інтэрнэт-пошук, фінансавую і бізнэс інфарматыку. Навукоўцы сутыкаюцца з абмежаваннямі ў працы электроннай навукі (e-Science), якая ўключае метэаралогію, геноміку[2], канэктоміку, складаныя фізіялагічныя сімуляцыі, біялагічня і экалагічныя даследванні[3].

Мноствы дадзеных растуць вельмі хутка і часткова таму што яны вельмі танна збіраюцца шэрагам мабільных прыладаў з інфа-сэнсарамі, у паветры (remote sensing), праграмнымі логамі, камерамі, мікрафонамі, радыё-рыдэрамі (radio-frequency identification (RFID)) і бяздротавімі сэнсарнымі сеткамі[4][5]. Сусветныя тэхналагічныя магчымасці захоўвання інфармацыі на чалавека падвойваліся кожныя 40 месяцаў з 1980-ых[6]; у 2012 кожны дзень ствараецца 2,5 экзабайтаў (2.5×1018)[7]. Для буйных прадпрыемстваў узнікае новае пытанне, хто павінен валодаць вялікімі дадзенымі, якія ўздзейнічаюць на ўсю арганізацыю[8].

Сістэмам кіравання базамі дадзеных і пакетам дэсктоп статыстыкі і візуалізацыі часта складана кіраваць вялікімі дадзенымі. Частка такая задача патрабуе «масіўнай паралельнай працы праграмаў на дзясятках, сотнях і нават тысячах сервераў»[9]. Што разглядаецца пад варыянтамі «вялікіх звестак» залежыць ад магчымасцяў карыстальнікаў і іх інструментаў. «Для некаторых арганізацый, якія сустракаюцца з сотнямі гігабайтамі дадзеных для першага разу можа ўключаць неабходнасць перагляду варыянтаў кіравання дадзенымі. Для іншых, гэта можа забраць дзясяткі або сотні тэрабайтаў перад тым, як памер дадзеных стане значным для разгляду»[10].

Характарыстыкі[правіць | правіць зыходнік]

Вялікія дадзеныя могуць быць апісаны наступнымі характарыстыкамі[11][12]:

Аб'ём
Колькасць згенераваных і захаваных звестак. Памер дадзеных вызначае значэнне і патэнцыйнае дакладнае разуменне, ці могуць гэтыя дадзеныя разглядацца як вялікія або не.
Варыяцыйнасць
Тып і прырода дадзеных. Гэта дапамагаю людзям, якія аналізуюць такія звесткі эфектыўна выкарыстоўваць выніковае разуменне.
Хуткасць
У гэтым кантэксце хуткасць, у якой гэтыя дадзеныя генеруюцца і апрацоўвацца, сустракаюць патрабаванні і выклікі, якія ляжаць на шляху роста і развіцця.
Варыятыўнасць
Непаслядоўнасць такіх дадзеных можа прадухіляць працэсы кіравання імі.
Праўдападобнасць
Якасць сабраных дадзеных можа значна адрознівацца і уздзейнічаць на дакладнасць аналіза.

Зноскі

  1. Source
  2. "Community cleverness required". Nature 455 (7209): 1. 4 September 2008. doi:10.1038/455001a. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html. 
  3. Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science 331 (6018): 703–5. doi:10.1126/science.1197962. PMID 21311007. 
  4. Hellerstein, Joe Parallel Programming in the Age of Big Data. Gigaom Blog (9 November 2008).
  5. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. https://books.google.com/books?id=zxNglqU1FKgC. 
  6. Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. http://martinhilbert.net/WorldInfoCapacity.html. 
  7. IBM What is big data? – Bringing big data to the enterprise. www.ibm.com. Праверана 26 жніўня 2013.
  8. Oracle and FSN, «Mastering Big Data: CFO Strategies to Transform Insight into Opportunity», December 2012
  9. Jacobs, A. The Pathologies of Big Data. ACMQueue (6 July 2009).
  10. Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0 (Sebastopol CA: O'Reilly Media) (11). http://radar.oreilly.com/r2/release2-0-11.html. 
  11. Hilbert, Martin Big Data for Development: A Review of Promises and Challenges. Development Policy Review.. martinhilbert.net. Праверана 7 кастрычніка 2015.
  12. Hilbert, M. (2015).
Wiki letter w.svg На гэты артыкул не спасылаюцца іншыя артыкулы Вікіпедыі,
калі ласка, карыстайцеся падказкай і пастаўце спасылкі ў адпаведнасці з прынятымі рэкамендацыямі.