Mūsdienās lielo datu izaicinājumi rodas no daudzveidības, nevis apjoma vai ātruma

Video: Digging into legumes and the potential of the Legume Innovation Network

Saturs

Trīs V lieli dati
Datu daudzveidības problēmas risināšana
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Izņemšana:

Pārāk daudz IT nodaļu visu, kas viņiem ir, izturas pret datu apjoma un ātruma jautājumiem, aizmirstot pievērsties datu dažādības pamatjautājumam.

Saskaņā ar Gartner pētniecības viceprezidenta Doug Laney teikto, lielo datu pārvaldības un piesaistīšanas izaicinājums nāk no trim elementiem. Laney pirmo reizi atzīmēja vairāk nekā pirms desmit gadiem, ka lielie dati uzņēmumam rada šādu problēmu, jo tie ievieš grūti pārvaldāmu apjomu, ātrumu un dažādību. Problēma ir tā, ka pārāk daudz IT nodaļu visu, kas viņiem ir, izmet datu apjoma un ātruma jautājumos, aizmirstot pievērsties datu dažādības pamatjautājumam.

Jau 2001. gadā Laney rakstīja, ka "vadošie uzņēmumi arvien vairāk izmantos centralizētu datu noliktavu, lai definētu kopēju biznesa vārdu krājumu, kas uzlabo iekšējo un ārējo sadarbību". Jautājums par šo vārdu krājumu - un mainīgums, kas neļauj uzņēmumiem to radīt - mūsdienās joprojām ir mazākais uzrunātais lielo datu mīkla. (Pārbaudiet, kas citiem ekspertiem ir sakāms. Pārbaudiet lielo datu ekspertus, kuriem sekot.)

Trīs V lieli dati

Daudzi uzņēmumi ir atraduši metodes, kā izmantot palielinātu datu apjomu un ātrumu. , piemēram, var analizēt milzīgus datu apjomus. Protams, šie dati tiek parādīti atkal un atkal ar tiem pašiem parametriem. Tas veicināja tehnoloģiju jauninājumus, piemēram, sleju datu bāzes, kuras tagad plaši izmanto citi uzņēmumi, kas saskaras ar vienlīdz lieliem līdzīgu datu vienumu krājumiem.

Runājot par viltošanas ātrumu, tādi pārdevēji kā Splunk palīdz uzņēmumiem analizēt ātri izveidotos datus, izmantojot žurnālfailus, kas fiksē vairākus tūkstošus notikumu sekundē. Šī liela apjoma notikumu analīze ir vērsta uz drošības un veiktspējas uzraudzības lietošanas gadījumiem. Tāpat kā datu apjoma izaicinājums, arī ātruma izaicinājums lielākoties ir ticis risināts, izmantojot sarežģītas indeksēšanas metodes un izkliedētu datu analītiku, kas ļauj apstrādes jaudu palielināt ar palielinātu datu ātrumu.

Tomēr, runājot par dažādību, pārāk daudz uzņēmumu joprojām saskaras ar lielu problēmu saistībā ar pieeju lielo datu analītikai. Šo problēmu virza trīs faktori: pirmkārt, izaugsmes, iegādes un tehnoloģisko jauninājumu dēļ, kas vidē pievieno jaunas sistēmas, uzņēmumi atrodas ļoti neviendabīgā vidē, un šī neviendabība tikai ar laiku palielinās. Uzņēmumiem jāizseko daudzu veidu sistēmām un jāpārvalda desmitiem tūkstošu datu tipu, kā arī tie paši dati, kas tiek attēloti, izmantojot dažādas nomenklatūras un formātus.

Otrkārt, šīs sistēmas un datu tipi daudzos gadījumos sniedz gan būtisku informāciju, gan informāciju, kuru var droši filtrēt kā neatbilstošu risināmajai problēmai. Ir nepieciešams ticami identificēt ietekmīgo informāciju.

Trešā šķirnes izaicinājuma dimensija ir pastāvīga vides mainīgums vai izmaiņas. Sistēmas tiek modernizētas, tiek ieviestas jaunas sistēmas, pievienoti jauni datu veidi un ieviesta jauna nomenklatūra. Tas vēl vairāk apgrūtina mūsu spēju pieradināt datu dažādības problēmu. Tas šķirnes izaicinājumam piešķir papildu slāni. (Lai iegūtu plašāku ieskatu, apskatiet Big Data: Kā tā tiek notverta, saspiesta un izmantota, lai pieņemtu biznesa lēmumus.)

Datu daudzveidības problēmas risināšana

Lai risinātu datu dažādības problēmu, uzņēmumiem jāsāk ar IT jomu, jo tā bieži pārstāv gan ļaunākos likumpārkāpējus, gan dažādības problēmas vissmagākos upurus. Pirmais solis ir jāsāk ar visu IT elementu vai aktīvu visaptverošu definīciju vai taksonomiju. Tas nodrošina pamatlīmeni vai pamatu atsaukties uz jebko IT vai par to un ļauj uzņēmumiem pārvaldīt pieaugošo neviendabīgumu, ņemot vērā zināmo taksonomiju vai terminoloģiju.

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Nākamais solis ir identificēt dažādos veidos, kā viens un tas pats objekts tiek attēlots dažādās ierakstu sistēmās. Tas ļauj IT profesionāļiem aplūkot neviendabīgo vidi un ļoti filtrēt un saspiest datus atbilstošās un pārvaldāmās daļās.

Visbeidzot, IT vadītājiem jāpieņem pastāvīgas vides pārbaudes process, lai veiktu izmaiņas, piemēram, jaunu elementu ieviešanu vai jaunu nomenklatūru, lai atsauktos uz to pašu elementu.

Ar šīm darbībām IT organizācijas var pārvaldīt dažādības problēmu un gūt dziļu ieskatu, kas vēsturiski ir izvairījies no IT komandām. Turklāt šķirnes problēmas pārvaldīšana ievērojami uzlabo viņu atdevi no ieguldījumiem instrumentos un paņēmienos, kas pievēršas tradicionālākajām lielo datu problēmām - apjomam un ātrumam.