5 galvenās jomas, kurās liela apjoma datiem ir liela ietekme

Saturs

Kā tas notika
Lieli dati, liela iespēja
Kaut ko skatīties

Avots: Nmedia /Dreamstime.com

Izņemšana:

Lieli dati ir liels bizness visur, taču dažas īpašas jomas, kurās šī tehnoloģija tiek piesaistītas vislielākajā mērā.

Kad es sāku šo rakstu, es plānoju uzskaitīt dažādu veidu lielo datu platformas. Bet pēc trīs dienu mēģinājuma kaut kādā secībā parādīt visu dažādo lielo datu piedāvājumus - relāciju pret nerelatīvo, SQL pret NoSQL un datu bāzi pret sistēmu - es nolēmu izvairīties no šī sajukuma.

Lai pievienotu apvainojumu par ievainojumiem, es biju cerējis iepazīstināt personu, kura raksta terminu “lieli dati”. Bet es to pat nevaru izdarīt. Nav saskaņotas atbildes. Faktiski ir pilns pētniecības projekts, kurā tiek apskatīts, kurš sākotnēji nāca klajā ar lieliem datiem. Tā vietā es apskatīšu dažus galvenos lielos datu izmantošanas veidus. Tas ir daudz svarīgāk. Un tas ir daudz interesantāks un pārsteidzošāks, nekā jūs varētu domāt.

Kā tas notika

Analītiķi, kas izmanto tradicionālo datu ieguvi, gadiem ilgi manipulē ar datiem. Šiem pašiem analītiķiem tagad ir grūti tikt galā ar uzņēmumu, privātu organizāciju un valdības aģentūru saglabāto datu daudzumu un daudzveidību.

Ievadiet lielos datus, kas ir nākamais evolūcijas solis datu ieguvē. Liela apjoma dati tika izstrādāti, lai apstrādātu masveida datu bāzes un neskaitāmus datu veidus, kas tiek veidoti mūsdienu digitālajā pasaulē. Ja jūs domājat par Google un visiem tās apkopotajiem datiem “masveidā”, jūs atrastos ballīšu parkā. Tas, kas jūs varētu pārsteigt, ir tas, ka Google ir tikai ceturtais pasaules lielāko datu bāzu desmitniekā. Sākot ar 2014. gada janvāri Pasaules klimata datu centrs ir saraksta augšgalā ar 220 terabaitiem datu, un tas ir ikviena minējums par datu bāzu lielumu, ko kontrolē noteiktas valdības aģentūras.

Protams, lieli dati parādījās, jo tas ļauj manipulēt ar lielu daudzumu atšķirīgu datu un atklāt pārsteidzošas - un pārsteidzoši sīkas un personiskas - lietas. Džons Sumers, HR nozares analītiķis, sniedz šādu piemēru:

"Šodien mēs izveidojam hipotēzes un vācam datus. Rīt mēs veiksim apgriezto virzienu. Pastāvīga, vienmērīga datu uzkrāšana ļaus mums aplūkot datus, pirms mēs veidojam jautājumus. Tas nozīmē, ka mēs saņemsim atbildes uz jautājumiem, kurus mēs neveicām." Mēs nedomājam veselu virkni lietu, kuras mēs uzskatām par faktiem. "

Protams, mēs visi esam dzirdējuši par dažiem rāpojošiem veidiem, kā šie dati tiek izmantoti, piemēram, par Targets spēju izjust jaunas sievietes grūtniecību, pirms viņas ģimene to pat uzzina. Bet lieli dati tiek izmantoti arī daudz mazāk draudīgu iemeslu dēļ. Šeit ir dažas organizācijas, kuras to izmanto visvairāk:

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Viens no acīmredzamiem lielajiem datiem palīdzēs droši un precīzi rīkoties ar elektroniskajām veselības kartēm visās medicīnas organizācijās. Precīza uzskaite pacientiem sniegs labāku servisu un samazinās kļūdas. Acīmredzamu iemeslu dēļ veselības aprūpes joma lēnāk pielāgo lielos datus, lai tie atbilstu valdības noteikumiem par pacienta konfidencialitāti.

Kā jau minēts iepriekš, ir pieejami lieli dati, lai sniegtu atbildes uz neatrisinātiem jautājumiem. Veselības aprūpes jomā tas varētu nozīmēt jaunas zāles vai ārstēšanas veida atrašanu, kas citādi nebūtu atrasts. Pēc McKinsey & Company domām, lieli dati ne tik tālā nākotnē varētu padarīt iespējamu sekojošo:

Bioloģisko procesu un zāļu paredzamā modelēšana kļūst sarežģītāka un plaši izplatīta.
Tiek noteikts, ka pacienti iesaistās klīniskajos pētījumos, pamatojoties uz vairāk informācijas avotiem, piemēram, sociālajiem medijiem.
Izmēģinājumi tiek uzraudzīti reālā laikā, lai ātri identificētu drošības vai ekspluatācijas problēmas.
Grūti izmantojamu stingru datu tvertņu vietā dati tiek uztverti elektroniski un viegli plūst starp dažādām vienībām.

Lieli dati, liela iespēja

Kaut arī dažās specifiskās jomās tiek izmantoti lieli dati, tā piedāvā iespēju visām organizācijām šādās jomās:

Gandrīz jebkura skaitļošanas un tīkla ierīce reģistrē datus. Ātri reģistrēto datu daudzums kļūst smags. Liela izmēra dati var viegli pārvaldīt šo datu daudzumu, ļaujot administratoriem uzraudzīt tīkla darbību, diagnosticēt problēmas vai Rubin man sniegtajā piemērā meklēt noteiktus tīkla trafika modeļus, kas norāda uz ļaunprātīgas programmatūras darbību.

Ja lasāt šo rakstu, tā ir diezgan droša likme, ka jūs zināt, kas saistīts ar sirdsdarbības problēmu, kas saistīta ar OpenSSL. Papildus tehniskajai problēmai pastāv arī bažas, ka ievainojamība pastāv jau vairākus gadus. Rubins minēja, ka lielie dati ļauj tīkla administratoriem sadarbībā ar datu analītiķiem izveidot programmu, kas visos tīkla žurnālos meklēs ļaunprātīgus sirdspukstus. Šajā EZF rakstā minēts:

"Ikviens tīkla operators, kuram ir plašs pakešu žurnāls, var pārbaudīt ļaunprātīgus sirdspukstus, kuru TCP noslodze parasti ir 18 03 02 00 03 01 vai 18 03 01 00 03 01 (vai varbūt pat 18 03 03 00 03 01)."

Šis piemērs ir parauga izvade no audita komandas parādīšanas:

Router # parādīt auditu

* 14. septembris 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Lietotājs:

* 14. septembris 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Lietotājs:

* 14. septembris 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Lietotājs:

* 14. septembris 18: 37: 32.107:% AUDIT-1-FILESISTĒMA: Hash:

330E7111F2B526F0B850C24ED5774EDE Lietotājs:

* 14. septembris 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Lietotājs:

Ja sekojat laika zīmogiem, laika intervāls visiem šiem ierakstiem bija mazāks par vienu sekundi. Es pat negribētu to ekstrapolēt uz dienu, nemaz nerunājot par diviem gadiem!

Kaut ko skatīties

Ja pārbaudāt darba sludinājumus, ir ļoti nepieciešami lielo datu eksperti. Par to pajautāju Rubīnam. Viņš piekrita, pieminot, ka viņa studenti ir satraukti par viņu izredzēm. Pēc tam es sapratu, ka lielo datu platformas, jo īpaši tās, kuras uzskata par atvērtiem avotiem, seko laika grafikam, kas ir ļoti līdzīgs tam, kā Linux kļuva par galveno.

Universitātes izmanto lielu datu platformu, īpaši Hadoop, atvērtā koda versijas, jo tās ir bezmaksas, un studenti var manipulēt ar avota kodu. Tātad absolventi, kuri aizpilda visus šos darba piedāvājumus, dod priekšroku darbam ar atvērtā koda platformām, jo tas ir tas, ko viņi zina vislabāk. Būs interesanti skatīties.