Вялікія даныя

З Вікіпедыі, свабоднай энцыклапедыі
Візуалізацыя штодзенных правак Вікіпедыі, створаная IBM. Тэкст і малюнкі Вікіпедыі займаюць тэрабайты памяці і з’яўляюцца прыкладам вялікіх даных.
Рост лічбавых магчымасцяў глабальнага захоўвання інфармацыі.[1]

Вялікія даныя (вялікія звесткі) — тэрмін для азначэння набораў даных (англ.: data sets), якія з’яўляюцца настолькі вялікімі і складанымі, што традыцыйнае прыкладное праграмнае забеспячэнне для апрацоўкі даных не падыходзіць. Праблемы аналізу вялікіх даных уключаюць збор, захаванне, аналіз, пошук, абмен, перадачу, візуалізацыю, фільтрацыю, абнаўленне, канфідэнцыяльнасць і крыніцу даных. Цяперашняе выкарыстанне тэрміна «вялікія даныя», як правіла, адносіцца да выкарыстання прагнастычнай аналітыкі, аналітыкі паводзін карыстальнікаў або некаторых іншых перадавых метадаў аналітыкі даных і рэдка — да пэўнага памеру набору даных.

Аналіз набораў даных можа знайсці новыя сувязі для «выяўлення бізнес тэндэнцый, прадухілення хвароб, змагання са злачыннасцю і інш.»[2] Навукоўцы, бізнесмены, медыкі-практыкі, рэкламшчыкі і ўрады вельмі часта сустракаюцца са складанасцямі з вялікімі данымі ў такіх галінах як інтэрнэт-пошук, фінансавая і бізнес-інфарматыка. Навукоўцы сутыкаюцца з абмежаваннямі ў працы электроннай навукі (e-Science), якая ўключае метэаралогію, геноміку[2], канэктоміку, складаныя фізіялагічныя сімуляцыі, біялагічныя і экалагічныя даследаванні[3].

Наборы даных растуць вельмі хутка і часткова таму што яны вельмі танна збіраюцца шэрагам мабільных прылад з інфа-сэнсарамі, у паветры (remote sensing), праграмнымі логамі, камерамі, мікрафонамі, радыё-рыдэрамі (radio-frequency identification (RFID)) і бесправаднымі сэнсарнымі сеткамі[4][5]. Сусветныя тэхналагічныя магчымасці захоўвання інфармацыі на чалавека падвойваліся кожныя 40 месяцаў з 1980-ых[6]; у 2012 кожны дзень ствараецца 2,5 эксабайт (2.5×1018) дадзеных[7]. Для буйных прадпрыемстваў узнікае новае пытанне, хто павінен валодаць вялікімі данымі, якія ўздзейнічаюць на ўсю арганізацыю[8].

Сістэмы кіравання рэляцыйнымі базамі даных і статыстычнае праграмнае забеспячэнне для візуалізацыі даных часта адчуваюць цяжкасці з апрацоўкай і аналізам вялікіх даных. Часта такая задача патрабуе «праграмнага забеспячэння, здольнага працаваць паралельна на дзясятках, сотнях і нават тысячах сервераў»[9]. Што лічыць «вялікімі данымі» залежыць ад магчымасцяў карыстальнікаў і іх інструментаў. «Для некаторых арганізацый сутыкненне з сотнямі гігабайт даных можа выклікаць неабходнасць пераглядзець варыянты кіравання данымі. Для іншых могуць спатрэбіцца дзясяткі ці сотні тэрабайт, перш чым памер даных стане важным фактарам.»[10].

Характарыстыкі[правіць | правіць зыходнік]

Вялікія даныя могуць быць апісаны наступнымі характарыстыкамі[11][12]:

Аб’ём
Колькасць згенераваных і захаваных даных. Памер даных вызначае каштоўнасць і патэнцыйна дапамагае іх разуменню, а таксама вызначае тое, ці можна лічыць іх вялікімі данымі. Памер вялікіх даных звычайна перавышае тэрабайты і петабайты.
Разнастайнасць
Тып і прырода даных. Гэта дапамагае людзям, якія аналізуюць такія даныя эфектыўна выкарыстоўваць выніковае разуменне.
Хуткасць
У гэтым кантэксце хуткасць, з якой гэтыя даныя генеруюцца і апрацоўвацца, сустракаюць патрабаванні і выклікі, якія ляжаць на шляху росту і развіцця.
Варыятыўнасць
Непаслядоўнасць такіх даных можа прадухіляць працэсы кіравання імі.
Праўдападобнасць
Якасць сабраных даных можа значна адрознівацца і ўздзейнічаць на дакладнасць аналізу.

Зноскі

  1. Source
  2. "Community cleverness required". Nature. 455 (7209): 1. 4 September 2008. doi:10.1038/455001a.
  3. Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). "Challenges and Opportunities of Open Data in Ecology". Science. 331 (6018): 703–5. doi:10.1126/science.1197962. PMID 21311007.
  4. Hellerstein, Joe. Parallel Programming in the Age of Big Data(недаступная спасылка). Gigaom Blog (9 лістапада 2008). Архівавана з першакрыніцы 7 кастрычніка 2012. Праверана 8 сакавіка 2016.
  5. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1.
  6. Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science. 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. {{cite journal}}: Няправільны |ref=harv (даведка)
  7. IBM What is big data? – Bringing big data to the enterprise. www.ibm.com. Праверана 26 жніўня 2013.
  8. Oracle and FSN, «Mastering Big Data: CFO Strategies to Transform Insight into Opportunity» Архівавана 5 мая 2017., December 2012
  9. Jacobs, A.. The Pathologies of Big Data. ACMQueue (6 ліпеня 2009).
  10. Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11).
  11. Hilbert, Martin. Big Data for Development: A Review of Promises and Challenges. Development Policy Review.. martinhilbert.net. Праверана 7 кастрычніка 2015.
  12. Hilbert, M. (2015).