Kvalitātes lielo datu analīzes atslēga: izpratne par atšķirīgu - TechWise 4. epizode - Tehnoloģija

Saturs

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Avots: Jakubs Jirsak / Dreamstime.com

Izņemšana:

Saimnieks Ēriks Kavanaghs pārrunā lielo datu analītiku ar nozares ekspertiem.

Ēriks: Dāmas un kungi, ir pienācis 2014. gada beigas - vismaz gandrīz. Cilvēki, tā ir mūsu pēdējā gada pārraide tīmeklī! Laipni lūdzam TechWise! Jā, patiesi! Mani sauc Ēriks Kavanaghs. Es būšu jūsu moderators satriecošajai interneta pārraidei, ļaudīm. Es tiešām, ļoti satraukti. Mums tiešsaistē ir divi satriecoši analītiķi un divi lieliski uzņēmumi - īsti novatori visā šajā lielo datu ekosistēmā. Un mēs visu runāsim par lielo datu analīzes atslēgu - izpratnes atšķirību. Tātad, iesim uz priekšu un ienirsim tieši ļaudīs.

Mums ir vairāki vadītāji. Kā redzat, augšpusē ir jūsu patiesais. Maiks Fergusons visu laiku zvana no Lielbritānijas, kur viņam bija jāsaņem īpašas privilēģijas, lai šajā vēlajā stundā paliktu biroju ēkā. Tāpēc viņam ir par vēlu. Mums šeit ir Dror Robor Bloor, mūsu pašu galvenais analītiķis šeit Bloor grupā. Mums būs Džordžs Korugedo, RedPoint Global izpilddirektors un līdzdibinātājs, un Keita Renisona, SAS institūta vecākā risinājumu arhitekte. Tie ir fantastiski uzņēmumi, ļaudis. Tie ir uzņēmumi, kas patiešām novatoriski. Un mēs izpētīsim dažus labus notikumus, kas šobrīd notiek visā lielo datu pasaulē. Pieņemsim, ka mazie dati nav pazuduši. Un tāpēc ļaujiet man šeit sniegt manu kopsavilkumu.

Tātad ir kāds vecs franču izteiciens: "Jo vairāk lietas mainās, jo vairāk tās paliek." Apskatīsim dažus faktus - lielie dati neatrisinās mazo datu problēmas. Joprojām ir pieejami korporatīvie mazie dati. Tas joprojām ir visur. Tā ir operāciju degviela mūsdienu informācijas ekonomikai. Un lielie dati piedāvā komplimentu šiem tā saucamajiem mazajiem korporatīvajiem datiem, taču tie neaizvieto mazos datus. Tas joprojām būs apkārt. Man patīk daudzas lietas par lielajiem datiem, it īpaši tādi, kā mašīnu ģenerēti dati.

Un šodien mēs, iespējams, mazliet runāsim par sociālo mediju datiem, kas arī ir ļoti spēcīgs saturs. Un, ja jūs domājat, piemēram, par to, kā sabiedriskā vide ir mainījusi biznesu, padomājiet tikai par trīs ātras vietnes šeit:, LinkedIn un. Padomājiet par to, ka pirms pieciem gadiem neviens nedarīja šāda veida lietas. ir absolūta juggernaut šajās dienās. , protams, ir milzīgs. Tas ir grezni. Un tad LinkedIn ir korporatīvo tīklu un komunikācijas de-facto standarts. Šīs vietnes ir pazemīgas, un, lai varētu izmantot tajās esošos datus, tā būs jāatjauno dažām spēlēm mainīgām funkcijām. Tas tiešām novedīs pie daudz laba daudzām organizācijām - vismaz tām, kuras to izmanto.

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Tātad, pārvaldība - pārvaldībai joprojām ir nozīme. Atkal lielie dati nenozīmē, ka ir vajadzīga pārvaldība. Atklāti sakot, ir pilnīgi jauna vajadzība koncentrēties uz to, kā pārvaldīt lielo datu pasauli. Kā jūs varat pārliecināties, ka jūsu procedūras un politika ir ieviesta; ka īstie cilvēki iegūst piekļuvi pareizajiem datiem; ka jums ir kontaktpersonas, vai jūs šeit esat iesaistījies ciltsrakstā? Jūs faktiski zināt, no kurienes nāk dati, kas ar to ir noticis. Un tas viss mainās.

Mani atklāti sakot, patiesi pārsteidza tas, ko esmu redzējis visā šajā jaunajā pasaulē, izmantojot Hadoop ekosistēmu, kas funkcionalitātes ziņā, protams, ir daudz vairāk nekā krātuve. Hadoop ir arī skaitļošanas dzinējs. Un uzņēmumam ir jāizdomā, kā izmantot šo skaitļošanas jaudu, šo paralēlās apstrādes iespēju. Viņi darīs ļoti, ļoti foršas lietas. Par to mēs uzzināsim šodien.

Otra lieta, kas jāpiemin, ir kaut kas tāds, par ko Dr Bloor nesenā pagātnē ir runājis, ka inovācijas vilnis vēl nav beidzies. Tātad, ap Hadoopu, protams, mēs esam redzējuši daudz uzmanības. Mēs esam redzējuši tādus uzņēmumus kā Cloudera un Hortonworks, jūs zināt, patiešām rada dažus viļņus. Un viņi atklāti atklāti veido partnerattiecības ar uzņēmumiem, kas šodien zvana. Viņi veido partnerattiecības ar daudziem cilvēkiem. Bet inovācijas vilnis vēl nav beidzies. Ir vēl citi projekti, kas iziet no Apache fonda un maina ne tikai gala punktu, ja vēlaties - programmas, kuras cilvēki izmanto, bet arī pašu infrastruktūru.

Tātad šī visa YARN izstrāde - vēl viens sarunu vedējs par resursiem - patiešām ir kā operētājsistēma lieliem datiem. Un tas ir liels, liels darījums. Tātad, mēs iemācīsimies, kā tas arī maina lietas. Tātad, tikai šeit ņemiet vērā dažus acīmredzamus padomus, esiet piesardzīgs, turpinot turpmākos līgumus, jūs zināt, piecu, desmit gadu līgumi būs vilnis, ceļš, kas man šķiet. Jūs vēlēsities izvairīties no ieslēgšanās par katru cenu. Mēs par to visu uzzināsim šodien.

Tātad, mūsu pirmais analītiķis šodien runā - mūsu programmas pirmais runātājs ir Maiks Fergusons, kurš zvana no Lielbritānijas. Ar to es jums, Mike, pasniegšu atslēgas un ļaušu jums to atņemt. Maiks Ferguson, grīda ir jūsu.

Mike, tu tur esi? Jūs varētu būt izslēgts. Es viņu nedzirdu. Mums, iespējams, vajadzēs viņu atzvanīt. Un mēs vienkārši pakāpsimies līdz Robina Bloora slaidiem. Robin, es šeit iegūšu vietu nabaga Maikam Fergusonam. Es dodos uz brīdi.

Vai tas esi tu, Maiks? Vai jūs dzirdat mūs? Nē. Es domāju, ka mums būs jāiet uz priekšu un vispirms jāiet kopā ar Robinu. Tātad, turiet vienu sekundi, ļaudis. Arī dažu minūšu laikā šeit atradīšu saites uz slaidiem. Līdz ar to ļaujiet man atdot Robina Bloora atslēgas. Robin, tu vari aiziet pirmais, nevis Maiks, un es pēc otra pasaukšu Maiku.

Robins: Labi.

Ēriks: Turies, Rob. Ļaujiet man iet uz priekšu un paceliet šeit savu slaidu, Rob. Tas notiks pēc sekundes.

Robins: Labi.

Ēriks: Jā. Šeit jūs varat sava veida sarunas par to, ar ko mēs nodarbojamies, runājot par pārvaldību. Es zinu, ka jūs runāsit par pārvaldību. Par to parasti tiek domāts mazo korporatīvo datu gadījumā. Tātad, es esmu ieguvis slaidu, Robin. Nepārvietojiet neko. Un šeit jūs ejat. Stāvs ir tavs. Ņem to prom.

Robins: Labi. Jā. Es domāju, labi, ka mēs jau iepriekš bijām sakārtojuši, Maiks runās par analītisko pusi, un es runāšu par pārvaldības pusi. Pārvaldība zināmā mērā ievēro analītiku tādā nozīmē, ka tas ir iemesls tam, ka jūs darāt lielus datus, un iemesls, kāpēc jūs sakopojat visu programmatūru analīzes veikšanai, tas ir, tur, kur ir vērtība.

Ir problēma. Un jautājums ir tāds, ka, jūs zināt, dati ir jāsaprot. Dati ir jāsakārto. Dati ir jāapkopo un jāpārvalda tā, lai analītika varētu notikt pilnīgi droši - es domāju, tas ir vārds. Tāpēc es domāju, ka es runāšu par vienādojuma pārvaldības pusi. Es domāju, ka patiešām jāsaka, ka pārvaldība jau bija jautājums. Pārvaldība jau bija problēma, un tā sāk kļūt par problēmu visā datu noliktavas spēlē.

Tas, kas notika, ir pārvērties par daudz lielāku problēmu. Iemesls, kāpēc tas ir kļuvis par daudz lielāku jautājumu, kā arī vairāk datu, bet es domāju, ka šie ir tiešām iemesli. Datu avotu skaits ir dramatiski pieaudzis. Iepriekš datu avotus, kas mums bija, lielākoties definēja tas, kas tika piegādāts datu noliktavai. Datu noliktavu parasti baro RTP sistēmas. Tas ir iespējams, nedaudz ārējo datu, nav daudz.

Tagad mēs esam devušies uz pasauli, kur, jūs zināt, šobrīd darbojas datu tirgus, un tāpēc notiks datu tirdzniecība. Jūs jau esat ieguvis daudzus un dažādus straumēšanas datu avotus, kurus faktiski varat ienest organizācijā. Mums ir pieejami sociālo mediju dati, kas tos ir paņēmuši, tā sakot, izņemti uz sava rēķina. Es domāju, ka šausmīgi daudz, sociālo mediju vietnēs patiesībā ir informācija, ko tās apkopo un tāpēc var padarīt pieejamu cilvēkiem.

Mēs esam arī atklājuši, ka, jūs zināt, tas ir tāpat kā viņi jau pastāvēja. Mums jau bija šie log faili, jūs zināt, Advent Splunk laikā. Un drīz vien kļuva skaidrs, ka žurnāla failā ir kāda vērtība. Tātad organizācijā bija dati, kas bija - kurus mēs varētu saukt gan par jauniem datu avotiem, gan kā ārējiem avotiem. Tātad, tā ir viena lieta. Un tas tiešām nozīmē, ka, jūs zināt, neatkarīgi no tā, kādi datu pārvaldības noteikumi mums bija iepriekš, tiem būs jābūt tādā vai citā veidā paplašinātiem, un tie būs jāpagarina, lai faktiski pārvaldītu dati. Bet mēs tagad sākam montāžu tādā vai citādā veidā.

Un, izejot no šī saraksta, mums ir straumēšana un datu saņemšanas ātrums. Viens no, manuprāt, Hadoop popularitātes iemesliem ir tas, ka to var diezgan daudz izmantot, lai iegūtu daudz datu. Tas var arī uzņemt datu ātrumu, ja jums tas faktiski nav nekavējoties jāizmanto, tā ir jauka paralēla, milzīga paralēla vide. Bet jūs esat arī uzzinājis, ka šobrīd notiek diezgan daudz straumēšanas analīzes. Kādreiz banku sektors bija ieinteresēts straumēt lietojumprogrammas, bet tagad tas ir kļuvis globāls. Un visi vienā vai otrā veidā aplūko lietojumprogrammu straumēšanu, kas ir potenciāls līdzeklis, kā iegūt datus no datiem un veikt organizācijas analīzi.

Mums ir nestrukturēti dati. Statistika, kas parasti bija daļa no tikai 10% pasaules datu, bija relāciju datu bāzēs. Tagad viens no galvenajiem iemesliem galvenokārt bija tas, ka tas faktiski nebija strukturēts, un tas arī bija - liela daļa no tā atradās tīmeklī, bet diezgan plaši izplatījās par dažādām vietnēm. Šie dati ir izrādījušies arī analizējami, arī izmantojami. Un līdz ar Symantec tehnoloģijas parādīšanos, kas pamazām ieslīgst situācijā, kļūst arvien vairāk.Tātad faktiski ir jāapkopo un jāpārvalda nestrukturēti dati, un tas nozīmē, ka tas ir daudz lielāks nekā tas bija agrāk. Mums ir sociālie dati, kurus es jau minēju, bet viss, kas par to ir galvenais, ir tas, ka, iespējams, ir jātīra.

Mums ir dati par lietu internetu. Tāda veida situācija ir cita. Visticamāk, ka to būs tik daudz, bet daudz kas nāksies palikt izplatītam kaut kur netālu no vietas, kur tā notiek. Bet jūs arī vēlēsities vienā vai otrā veidā to pievilkt, lai veiktu datu analīzi organizācijas ietvaros. Tātad, tas ir pievienots vēl viens faktors. Šie dati tiks strukturēti atšķirīgi, jo tas, iespējams, būs - tie, iespējams, tiks formatēti JSON vai XML, lai tie sevi deklarētu. Un ne tikai tādā vai citādā veidā, ka mēs faktiski ievelkam datus un spējam veikt tāda veida shēmas, kā lasīt par šo konkrēto datu vienību.

Mums ir radīts jautājums par izcelsmes vietu, un tas ir analītikas jautājums. Jebkuras jūsu veiktās datu analīzes rezultāti patiesībā nevar tikt apstiprināti, ja vēlaties, par derīgiem, ja vien nezināt datu izcelsmi. Es domāju, ka tā ir tikai profesionalitāte attiecībā uz datu zinātnieku darbību. Bet jūs zināt, ka, lai iegūtu datu izcelsmi, tas nozīmē, ka mums faktiski ir jāpārvalda dati un jāveic piezīme par to izcelsmi.

Mums ir jautājums par datora jaudu un paralēlēm, un viss, kas to dara, ir viss ātrāk. Problēma ir tā, ka acīmredzot daži procesi, kurus esam izveidojuši, visam pārējam var būt pārāk lēni. Tātad, iespējams, pastāv neatbilstības ātruma ziņā.

Mums ir sākusies mašīnmācība. Mašīnmācīšanās faktiski padara analītiku par atšķirīgu spēli, nekā tā bija iepriekš. Bet jūs to patiešām varat izmantot tikai tad, ja jums ir jauda.

Esam uzzinājuši par jaunu analītisko darba slodzi. Mums ir paralēla pasaule, un daži analītiskie algoritmi ir jāizpilda paralēli, lai panāktu maksimālu efektu. Tāpēc patiesībā problēma ir tā, kā jūs faktiski tādā vai citādā veidā izstumjat datus, padariet tos pieejamus, ja tie ir pieejami. Un kur jūs faktiski izpildāt analītisko darba slodzi, jo jūs, iespējams, to darāt datu bāzē. Tātad, iespējams, jūs to darāt analītiskos pielietojumos.

Tātad pastāv virkne pārvaldības problēmu. Tas, ko mēs izdarījām šogad - pētījums, ko mēs veicām šogad, patiešām bija saistīts ar lielo datu arhitektūru. Un, kad mēs patiesībā cenšamies to vispārināt, secinājums, pie kura nonācām, - diagramma, ar kuru mēs nāca klajā, izskatījās daudz šādi.

Es to neiedziļināšos, jo īpaši tāpēc, ka Maiks darīs diezgan daudz par datu arhitektūru analītikai. Bet tas, kas man patiešām patīk, ka cilvēki tikai koncentrējas, ir šī apakšējā zona, kurā mēs tādā vai citādā veidā apkopojam datus. Mums ir kaut kas tāds, uz kuru es gribētu atsaukties, ir datu pārstrādes rūpnīca vai datu apstrādes centrs. Un tur notiek pārvaldība. Tātad, jūs zināt, ja mēs koncentrējamies, tas izskatās šādi. Jūs zināt, ka to baro dati no iekšējiem un ārējiem avotiem. Rumbai teorētiski vajadzētu ņemt visus datus, kas tiek ģenerēti. Tas vai nu jā straumē un jāpārvalda, tāpat kā straumēts, ja jums ir jāveic analīze un datu straumēšana, un pēc tam jānodod centrmezglā. Vai arī tas viss nonāk centrā. Un notiek vairākas lietas, kas notiek centrā. Un centrā nevar būt noteikts skaits analītikas un SQL. Bet jums ir arī nepieciešama datu virtualizācija katrā šūnā, lai datus novirzītu uz citām jomām. Bet pirms kaut kas no tā notiek, jums vienā vai otrā veidā faktiski ir jāveic datu sagatavošanas precizēšana. Jūs to varat saukt par datu sagatavošanu. Tas ir daudz lielāks par to. Es domāju, ka tās ir lietas.

Mums ir sistēmu pārvaldība un pakalpojumu pārvaldība tādā ziņā, ka tā ir lielākā datu slāņa daļa, tad faktiski faktiski visām operētājsistēmām ir jāpielieto visas sistēmas, kas pārvalda operētājsistēmas pārvaldības centienus, ko mēs parasti esam darījuši. Bet mums vienā vai otrā veidā ir arī jāuzrauga citas notiekošās lietas, lai pārliecinātos, ka šie dažādie pakalpojumu līmeņi tiek ievēroti, jo noteikti ir jādefinē pakalpojumu līmeņi vai jebkāda veida analītika, kā darbojas, vai arī BI dati ir tiek rīkots.

Mums ir nepieciešama veiktspējas uzraudzība un vadība. Ja kaut kas cits, tas mums ir vajadzīgs, lai zinātu, kādus papildu datora resursus mums varētu būt nepieciešams sadalīt dažādos laika periodos. Bet arī šausmīgi liela slodze šeit faktiski ir diezgan sarežģīta un konkurē savā starpā par resursiem. Šajā jomā ir jādara kaut kas diezgan sarežģīts.

Mēs tagad esam ieguvuši datu dzīves ciklu tādā veidā, kā tas mums agrāk nebija. Šeit darījums patiešām ir pāri visam un pāri tam, ka mēs iepriekš neievācām datus un tos neizmetām. Mums bija tendence vākt vajadzīgos datus un droši vien tos glabājām, un pēc tam mēs tos arhivējām. Bet šausmīgi daudz no tā, ko mēs turpmāk darīsim, ir datu izpēte. Un, ja jūs nevēlaties datus, apglabāsim tos prom. Tātad, datu dzīves cikli ir atšķirīgi atkarībā no situācijas, bet tie būs arī šausmīgi daudz datu apkopošana. Tāpēc jūs zināt, zinot, no kurienes radies agregāts, kas ir… kāds ir apkopošanas avots utt. Un tā tālāk. Tas viss ir nepieciešams.

Datu līnija, protams, aizdod. Bez tā jums jāzina problēmas, tāpēc dati… Mums ir jāzina, ka dati ir derīgi, taču ar to, cik patiesi tie ir.

Esam ieguvuši arī datu kartēšanu, jo liela daļa datu tā vai citādi faktiski būs. Un tas ir, ja vēlaties, tas zināmā mērā attiecas uz MDM. Tas ir tikai tas, ka tagad tas ir daudz sarežģītāk, jo, kad esat saņēmis šausmīgi daudz datu, ko definējis JSON vai balstoties uz mūsu XML shēmu par lasīšanu, jums vienā vai otrā veidā būs jābūt ļoti aktīvam. notiek datu kartēšanas darbība.

Tur ir metadatu pārvaldības situācija, kas ir vairāk nekā MDM, jo tādā vai citādā veidā ir jāveido tas, par ko es tagad domāju, kā sava veida metadatu noliktava visam, kas jūs interesē. Tur ir metadati atklāšana, jo dažu datu metadati nebūs obligāti deklarēti, un mēs vēlamies tos nekavējoties izmantot. Pēc tam notiek datu tīrīšana, kas ir milzīga lieta, piemēram, cik daudz lietu var tur izdarīt. Un tur ir arī datu drošība. Visi šie dati ir jānostiprina pieņemamā līmenī, un dažos gadījumos tas pat varētu nozīmēt - piemēram, daudzu vērtību šifrēšana.

Tātad visa šī darba slodze faktiski ir pārvaldes impērija. Tam visam vienā vai otrā veidā ir jānotiek vienlaicīgi vai iepriekš, visa mūsu analītiskā darbība. Tas ir liels skaits koordinētu lietojumprogrammu. Tā ir pati sava sistēma. Un tad tie, kas to nedara dažādos laika periodos, cieš no tā trūkuma, jo dodas uz priekšu, jo šausmīgi daudz šo lietu nav īsti fakultatīvs. Beigu beigās entropija tikai palielinās, ja jūs to nedarīsit.

Tātad, runājot par datu analītiku un pārvaldību, es teiktu, ka patiešām viena roka mazgā otru. Bez pārvaldības analītika un BI netiks savlaicīgi izlaupīta. Un bez analītikas un BI, datu pārvaldīšana jebkurā gadījumā nebūs liela. Tātad, abas lietas patiešām iet roku rokā. Kā viņi saka Tuvajos Austrumos: "Viena roka mazgā otru." Un tas ir viss, kas man ir sakāms. Es ceru - cerams, ka mēs tagad esam atguvuši Maiku.

Ēriks: Mēs darām. Maik, es pieņemu, ka tu esi tur. Es celšu jūsu slaidu uz augšu.

Maiks: Esmu. Labi, vai jūs mani dzirdat?

Ēriks: Jā, es jūs dzirdu. Jūs izklausāties brīnišķīgi. Tātad, ļaujiet man iepazīstināt… Tur jūs ejat. Un jūs tagad esat vadītājs. Ņem to prom.

Maiks: Labi, paldies! Labrīt, labu pēcpusdienu, labu vakaru jums visiem ārā. Piedod žagas sākumā. Kādu iemeslu dēļ es biju apklusināts un redzu visus, bet viņi mani nevarēja dzirdēt.

Labi. Tātad, tas, ko es gribu darīt ātri, ir runāt par lielo datu analītisko ekosistēmu. Ja vēlaties man uzdot jautājumus, es teikšu, ka šajā sesijā vai vēlāk, šeit varat uzzināt mani par manu kontaktinformāciju. Kā jau teicu, nakts vidū šeit, Lielbritānijā.

Nu ļaujiet man nokļūt pie tā, par ko es gribu runāt. Skaidrs, ka dažu pēdējo gadu laikā mēs esam redzējuši visa veida jaunu atrastu datu veidu parādīšanos, ko uzņēmumi tagad vēlas analizēt - sākot ar klikšķu straumes datiem, lai saprastu tiešsaistes uzvedību, sociālo mediju datiem, par kuriem Ēriks runāja programmas sākums šeit. Es domāju, ka Robins pieminēja JSON, BSON, XML - tātad, daļēji strukturētus datus, kas sevi raksturo. Protams, mums ir arī vesels tonns citu lietu - viss no nestrukturētiem datiem, IT infrastruktūras žurnāliem, sensoru datiem. Visi šie salīdzinoši jaunie datu avoti, par kuriem uzņēmumi tagad ir ieinteresēti, jo tie satur vērtīgu ieskatu, kas potenciāli varētu padziļināt to, ko mēs zinām.

Tātad tas būtībā nozīmē, ka analītiskā ainava ir pārgājusi ārpus tradicionālās datu noliktavas. Mēs joprojām strukturējam datus strukturētu un daudzstrukturētu datu kombinācijas pasaulē, kur daudzos gadījumos strukturētie dati varētu nākt no uzņēmuma iekšpuses vai ārpuses. Šo jauno datu tipu un jauno analīzes vajadzību rezultātā mēs esam redzējuši jaunu analītisko darba slodžu parādīšanos - sākot ar kustībā esošo datu analīzi, kas tradicionālās datu glabāšanas arhitektūras virzienā nedaudz ieslēdzas uz galvas, kur mēs , tradicionālajos aprindās, integrējiet datus, notīriet tos, pārveidojiet, saglabājiet un analizējiet. Analizējot kustībā esošos datus, mēs tos uztveram, integrējam, sagatavojam, analizējot un pēc tam saglabājot. Tātad notiek datu analīze, pirms tie tiek glabāti jebkur.

Mēs veicam strukturētu datu sarežģītu analīzi, iespējams, modeļa izstrādei, statistiskai un paredzētai modeļa izstrādei, kas dažiem tradicionālās datu noliktavas telpā nav nekas jauns. Esam ieguvuši modeļa datu izpētes analīzi. Tas ir tur strukturēto datu daudzums. Mums ir jaunas darba slodzes grafiku analīzes veidā, kas maniem finanšu pakalpojumu klientiem ietver tādas lietas kā krāpšana. Tajā ietilpst arī kiberdrošība. Tajā ietilpst sociālie tīkli, protams, izpratne par ietekmētājiem un tamlīdzīgu lietu. Es to pat apguvu vadībā, ir vairāku gadu grafika analīze.

Esam ieguvuši datu noliktavas optimizāciju vai ETL apstrādes izkraušanu, kas ir vairāk kā IT izmantošanas gadījums, CIO varētu to finansēt. Un pat datu un datu noliktavu arhivēšana, lai uzturētu to tiešsaistē tādās lietās kā Hadoop. Tātad, visas šīs jaunās analītiskās darba slodzes ir pievienojušas analītiskajai ainavai jaunas platformas, jaunas uzglabāšanas platformas. Tātad, tā vietā, lai mums būtu tikai tradicionālās datu noliktavas, datu kartes, mēs tagad esam ieguvuši Hadoop. Mums ir NoSQL datu bāzes, piemēram, grafiku datu bāzes, kuras bieži izmanto analītiskām darba slodzēm. Protams, grafiku analīzi mēs varam veikt tagad pašā Hadoop, kā arī NoSQL grafiku DBMS. Mums ir straumēšanas analītika, kuru minēja Robins. Un mēs esam izveidojuši modeļus, ja jums patīk, iespējams, arī uz analītisko datu noliktavu ierīcēm. Bet tas viss ir sarežģījis analītisko ainavu, tagad ir vajadzīgas vairākas platformas. Es domāju, ka jebkuram biznesam, kas darbojas ar biroju vai aizmugures biroju, vai finansēm, iepirkumiem, cilvēkresursiem un kaut kādām darbībām, ir izdomāt, kuri analītiskie projekti ir saistīti ar tradicionālo datu glabāšanas ainu. Un, tiklīdz jūs zināt, ka analītiskie projekti ir saistīti ar šīm jaunajām lielajām datu platformām un kur tos vadīt, jūs zināt, kura analītiskā darba slodze ir nepieciešama, taču neaizmirstiet par biznesu tādā nozīmē, ka tas ir - jūs tagad redzēsit, ka tas ir liels apvienojums datu analītiskie projekti un tradicionālie lielapjoma datu glabāšanas projekti, kas kopā ir nepieciešami, lai stiprinātu darbību ap klientu vai ap darbību, ap risku, finansēm vai ilgtspēju. Tāpēc mēs vēlamies, lai tie visi tiktu saskaņoti ar mūsu stratēģiskajām biznesa prioritātēm, lai mēs varētu turpināt ceļu, lai, jūs zināt, ievietotu adatas, kuras jāievieto, lai jūs varētu uzlabot uzņēmuma sniegumu, samazināt izmaksas, lai mazinātu riskus utt., jūs zināt, mūsu uzņēmumam kopumā. Tātad, nav tā, ka šeit viens otrs tiek aizstāts ar lieliem un tradicionāliem. Tas abi tiek izmantoti kopā. Un tas dramatiski maina arhitektūru, jūs zināt.

Tātad, tas, kas man šeit ir, ir salīdzinoši jauna arhitektūra, kuru izmantošu kopā ar saviem klientiem. Un tā, kā jūs tagad redzat apakšā, plašs datu avotu klāsts, ne tikai strukturēts vairs. Daži no tiem straumē dzīvus datus, piemēram, sensorus, piemēram, tirgus datus, šāda veida lietas. Tas pat varētu būt tieša klikšķu plūsmas dati. Tas varētu būt tiešraides video straumēšanas dati. Tātad tam nebija jābūt strukturētam. Tātad mēs varam veikt datu straumētu apstrādi, lai reālā laikā veiktu automātiskas darbības, un visus interesējošos datus varētu filtrēt un nodot uzņēmuma informācijas pārvaldības rīkos, kurus var izmantot, lai aizpildītu analītiskos datu krājumus. Ja vien šeit neredzat sajaukumu, tagad mums ir tradicionālās datu noliktavas, Hadoop un NoSQL datu bāzes. Arī sajaukumā ir pieejama pamatdatu pārvaldība. Un tas rada lielāku spiedienu uz visu datu pārvaldības rīku komplektu ne tikai, lai aizpildītu šos datu krājumus, bet arī lai pārvietotu datus starp tiem.

Turklāt mums ir jāvienkāršo piekļuves rīki. Mēs nevaram vienkārši vērsties pie lietotāja un pateikt: “Iegūstiet visus šos datu krājumus, turiet šīs API - jūsu problēma”. Tas, kas jums jādara, ir piekļuves vienkāršošana. Tā kā tur ir punktētās līnijas, redzēsit, ka datu virtualizēšana un optimizēšana slēpj vairāku datu glabāšanas sarežģītību. Mēģiniet lietotājiem atvieglot piekļuvi tam. Un, protams, augšpusē ir virkne rīku, viss - sākot ar tradicionālajiem BI rīkiem, kuru darbība ir sākusies datu glabāšanas augšdaļā, pamazām virzoties diagrammas kreisajā pusē līdz veidam, lai izveidotu savienojumu ar Hadoops un pēc tam pasaules NoSQL datu bāzes.

Mēs esam veikuši meklēšanu, lai iegūtu jaunu dzīves nomu, jo īpaši ap ķermeņa strukturētiem, nestrukturētiem datiem, kas bieži tiek glabāti Hadoop. Mums ir pielāgotas analītiskas lietojumprogrammas, kas jāveic Hadoop platformā ar MapReduce, piemēram, Spark ietvaram. Mums ir grafikas analīzes rīki, kas, jūs zināt, šeit koncentrējas uz ļoti specifiskām darba slodzēm. Tātad arī rīku klāsts un datu plūsmas ir sarežģītākas. Tā vairs nav tikai vienvirziena iela datu noliktavā. Protams, tagad tie ir pamatdati.

Mums ir ienācis jauns datu avots, vai nu, tie tiek uztverti NoSQL, jūs zināt, tādi datu krājumi kā MongoDB, piemēram, Cassandra, piemēram, HBase. Mēs esam saņēmuši datus tieši Hadoop, lai tos tur analizētu un sagatavotu. Mēs esam ieguvuši jaunu ieskatu no Hadoop un datu noliktavām. Mums ir arhīvs, kas no datu noliktavām nonāk Hadoop. Tagad mēs saņēmām datu plūsmas, kuras, tāpat, jūs zināt, arī visās NoSQL datu bāzēs un datu kartēs. Tātad, ko jūs šeit varat redzēt, datu pārvaldībā notiek daudz vairāk darbību. Un tas nozīmē, ka tas rada ievērojamu spiedienu uz datu pārvaldības programmatūru. Tā vairs nav tikai vienvirziena iela. Tā ir divvirzienu datu kustība. Tas notiek daudz vairāk darbību, un tāpēc mērogojamība ir svarīga gan datu pārvaldības rīka priekšā, gan datu avotā.

Tātad, šī diagramma atgriežas tajā arhitektūrā, kuru es pieminēju pirms brīža. Tas parāda dažādas analīzes darba slodzes dažādās šīs arhitektūras daļās. Tā kā kreisajā apakšējā stūrī, jums ir straumēšana reāllaikā, straume tiek apstrādāta, izmantojot datus, kas, jūs zināt, no jebkura veida tiešsaistes datu krātuves. Mums ir veikta klases analīze NoSQL grafiku datu bāzēs. Tas var notikt arī vietnē Hadoop. Piemēram, izmantojot Spark ietvaru un tur esošo GraphX, mēs esam ieguvuši izmeklēšanas analīzi un datu pārstrādes rūpnīcu, par kuru Robins runāja par notikumu Hadoop. Mēs zinām, ka joprojām notiek tradicionālās darba slodzes un datu uzglabāšana, jo enerģijas lietotāji veido statistikas un prognozēšanas modeļus, iespējams, datu noliktavu ierīcēs. Un mēs joprojām cenšamies vienkāršot piekļuvi tam visam, lai gala lietotājiem tas būtu ērti.

Tātad panākumi visā šajā uzstādījumā ir kas vairāk par analītisko pusi. Ziniet, mēs varam ievietot analītiskās platformas, taču, ja mēs nevaram uztvert un uzņemt, jūs zināt, liela ātruma un liela apjoma datus mērogā nav daudz. Ziniet, es neko neanalizēju. Un tātad, lai panāktu lielu datu analīzi, operētājsistēmas ir jāpaplašina. Tas nozīmē, ka, lai jūs varētu atbalstīt jaunus darījumus, jūs zināt, ir virsotnes. Jūs zināt, ka visi tur iegūtie dati, kas nav saistīti ar darījumu, var būt, ļoti jauni, ļoti lieli ienākšanas rādītāji ātrgaitas datiem, piemēram, sensoriem vai jebkurai norādei. Mums jāspēj to visu rūpēties - spēt notvert šāda veida datus un ienest tos analīzei. Mums arī pašiem ir jākoriģē analītika, jāvienkāršo piekļuve manis jau pieminētajiem datiem. Un tad sasiet to. Jūs zināt, mums jāspēj pilnveidoties šajās operētājsistēmās, lai tai būtu slēgta ķēde.

Tātad, mērogojot mājas operatīvo pusi, lai iegūtu datus, jūs zināt, nonāk NoSQL datu bāzes pasaulē. Es domāju, šeit jūs redzat piecas NoSQL datu bāzes kategorijas. Šī kategorija tiks veidota tikai kā pārējo četru kombinācija. Kopumā jūs zināt, tās galvenās vērtības, glabātie dokumenti un sleju saimes datu bāzes - pirmās trīs - kuras tiek izmantotas vairāk darījumu un citu darījumu datiem.

Dažas no šīm datu bāzēm, kuras atbalsta kā rekvizītus; daži no viņiem nē. Bet, neraugoties uz to, jūs zināt, mēs redzam tādu ieviešanu, lai paplašinātu šāda veida lietojumprogrammas. Un, piemēram, tā kā mēs esam attālinājušies no tā, ka darbinieki tikai veic darījumus ar tastatūru, lai tagadējie klienti un masas, kas izmanto jaunas ierīces, varētu to izdarīt. Mēs esam redzējuši, ka uzņēmumos noslēgto darījumu skaits ir ievērojami pieaudzis. Un tā, lai to izdarītu, mums ir jāpielāgo darījumu pieteikumi.

Tagad, vispārīgi runājot, to var izdarīt NewSQL datu bāzēs kā relāciju datu bāzē, piemēram, šeit parādītajās NuoDB un VoltDB. Var būt arī kāda no NoSQL datu bāzēm, kas, iespējams, atbalsta ACID rekvizītus, kas var garantēt transakciju apstrādi. Tas attiecas arī uz datiem, kas nav saistīti ar darījumu, piemēram, iepirkumu groza datiem pirms darījuma, jūs zināt, pirms cilvēki pērk sīkumus, sensoru datus, jūs zināt, jo es simt miljonu sensoru rādījumos zaudē sensoru nolasījumu. Tas nav nekas liels. Klikšķi, jūs zināt, vidējā straumju pasaulē - ja es izmantoju klikšķi, tas nav nekas liels.Tātad, jūs zināt, mums tur nav obligāti jābūt ACID īpašībām, un tur bieži vien darbojās NoSQL datu bāzes - tā bija spēja veikt ļoti augstu, pareizu mēroga apstrādi, lai uztvertu šos jaunos datu veidus.

Tajā pašā laikā mēs vēlamies, lai analītika būtu mērogojama. Un tātad, datu vilkšana no datu krātuviem uz analītiskajām platformām to vairs nemēģina uzlauzt, jo dati ir pārāk lieli. Mēs patiešām vēlamies virzīt analītiku citā veidā, lejup pa uzņēmuma datu noliktavu Hadoop, straumē, lai varētu virzīt analītiku uz datiem. Tomēr tas, ka kāds saka, ka tas notiek datubāzu analītikā vai Hadoop analītikā, nenozīmē, ka analītika notiek paralēli. Un atklāti sakot, ja jūs ieguldīsit šajās jaunajās masveidā paralēli mērogojamajās tehnoloģijās, piemēram, Hadoop, piemēram, datu noliktavu ierīcēs un vispār, piemēram, klasterizētās straumju apstrādes motoros, mums ir nepieciešama analītika, lai tā darbotos paralēli.

Tātad, tas ir tikai pārbaudījums. Jūs zināt, ja mums ir analītika, kas palīdz prognozēt lietas klientiem, operācijām, riskam utt., Mēs vēlamies, lai viņi darbotos paralēli, nevis tikai darbotos platformā. Mēs vēlamies abus. Un tas ir tāpēc, ka, jūs zināt, tehnoloģija ir tāda pati kā šie jaunie vizuālās meklēšanas rīki, piemēram, SAS. Tas faktiski ir viens no mūsu sponsoriem šeit.

Viena lieta, ko cilvēki vēlas, ir vismaz izmantot Hadoop un pēc tam datu bāzu analītikā esošos. Un mēs vēlamies, lai tie darbotos paralēli, lai spētu nodrošināt nepieciešamo veiktspēju ar tik lielu datu apjomu. Tajā pašā laikā mēs cenšamies vienkāršot piekļuvi tam visam. Tātad SQL ir atkal darba kārtībā. Jūs zināt, SQL ir - SQL vietnē Hadoop šobrīd ir karsts. Šobrīd to izsekoju 19 SQL un Hadoop iniciatīvās. Turklāt jūs varat redzēt, ka mēs varam iegūt šos datus, jūs zināt, vairākos veidos, lai tieši piekļūstot SQL pašā Hadoop, mēs varam pāriet SQL uz meklēšanas indeksu. Tādā veidā, piemēram, kā jūs zināt, daži no meklēšanas pārdevējiem šajā telpā, mums var būt SQL piekļuve analītiskām relāciju datu bāzēm, kurām ir Excel tabulas Hadoop.

Tagad mums var būt SQL piekļuve datu virtualizācijas serverim, kuru pats pēc tam var savienot ar datu noliktavu Hadoop. Es pat tagad sāku redzēt SQL piekļuves rašanos tiešraides straumēšanas datiem. Tātad SQL pieeja visam tam strauji pieaug. Un daļa no izaicinājumiem ir tikai tāpēc, ka tur tiek tirgota piekļuve SQL. Jautājums ir, vai SQL var tikt galā ar sarežģītiem datiem? Un tas ne vienmēr ir tieši saprotams. Šeit ir visdažādākie sarežģījumi, tostarp tas, ka JSON datus varēja ligzdot. Mums var būt shēmas variantu ieraksti. Tātad pirmajam ierakstam ir viena shēma. Otrajam ierakstam ir atšķirīga shēma. Šīs lietas ļoti atšķiras no tā, kas notiek relāciju pasaulē.

Tāpēc mums ir jāuzdod jautājumi par to, kāda veida datus mēs cenšamies analizēt, un kādi ir analītiskie raksturlielumi. Vai jūs zināt, paneļa, kuru vēlaties darīt? Vai tā ir mašīnmācība? Vai tā ir grafika analīze? Vai jūs to varat izdarīt no SQL? Jūs zināt, vai tas ir pielietojams no SQL? Cik daudz vienlaicīgu lietotāju mums to ir jādara? Ziniet, mums ir simtiem vienlaicīgu lietotāju. Vai tas ir iespējams ar sarežģītiem datiem? Jūs zināt, ka visas šīs lietas ir galvenie jautājumi. Tāpēc es šeit izveidoju dažu sarakstu, kas, manuprāt, jums būtu jāņem vērā. Jūs zināt, kādi failu formāti? Par kādiem datu veidiem mēs runājam? Kādas analītiskās funkcijas mēs varam izmantot no SQL, lai iegūtu sarežģītus datus? Un sava veida funkcijas darbojas paralēli. Es domāju, viņiem ir jāskrien paralēli, ja mums ir jāprot to izmērīt. Un vai es varu pievienoties datiem Hadoop šodien ārpus tā, jūs zināt, vai tas nav izdarāms? Un ko es darīšu ar visām šīm dažādajām vaicājumu slodzēm?

Un kā mēs redzēsim, jūs zināt, ka no tā, ko esmu redzējis, SQL un Hadoop sadalījumā ir daudz atšķirību. Tos visus es izsekoju. Un, starp citu, tas ir tīrs SQL vietnē Hadoop. Šajā brīdī pat nav iekļauta datu virtualizācija. Un tā, daudz tur un daudz iespēju konsolidācijai, kas, manuprāt, notiks nākamā gada laikā, pēc aptuveni astoņpadsmit mēnešiem. Bet tas paver arī citu lietu, kas ir tāda, ka man Hadoop var būt potenciāli vairāki SQL dzinēji ar vieniem un tiem pašiem datiem. Un tas ir kaut kas, ko jūs nevarētu izdarīt attiecībās.

Protams, tas nozīmē, ka tad jums ir jāzina, kāda veida vaicājumu darba slodze man tiek rādīta? Vai man tas jādara partijā noteiktā SQL pēc Hadoop iniciatīvas? Vai man vajadzētu palaist interaktīvo vaicājumu slodzi, izmantojot citu SQL pēc Hadoop iniciatīvas utt., Lai es zinātu, ar kuru izveidot savienojumu? Ideālā gadījumā, protams, mums to nevajadzētu darīt. Jums, jūs zināt, mums vienkārši vajadzēja uzdot jautājumu par to. Jūs zināt, daži optimizētāji izdomā labāko veidu, kā to izdarīt. Bet, manuprāt, mēs vēl neesam tur pilnībā.

Tomēr, neskatoties uz to, datu virtualizācijai, kā jau minēju iepriekš, ir ļoti liela loma, lai vienkāršotu piekļuvi vairākiem datu krājumiem. Un, ja mēs izveidojam jaunu ieskatu Hadoop, tas, protams, ir ticami, ja mēs apvienojam datus no datiem un tradicionālās datu noliktavas, izmantojot datu virtualizāciju, piemēram, ne vienmēr pārvietojot datus no Hadoop uz tradicionālajām datu noliktavām. Protams, to var izdarīt arī jūs. Tas ir arī ticami, ja es arhivēju datus no tradicionālajām datu noliktavām Hadoop. Es joprojām varu tajā nokļūt un pievienoties datiem, kas atrodas mūsu datu noliktavā, lai tos virtualizētu. Tātad, manuprāt, datu virtualizācijai ir bijusi liela nākotne šajā vispārējā arhitektūrā un piekļuves vienkāršošana visiem šiem datu krājumiem.

Un neaizmirstiet, ka, veidojot šo jauno ieskatu neatkarīgi no tā, vai tas attiecas uz relāciju vai NoSQL sistēmām, mēs joprojām vēlamies atgriezt šo ieskatu savās darbībās, lai mēs varētu maksimāli izmantot atrasto vērtību, lai mēs varētu izmantojiet to efektīvākiem un savlaicīgākiem lēmumiem šajā vidē, lai optimizētu mūsu biznesu.

Tātad, lai apkopotu to, ko es redzu, vai mums ir nepieciešami, jūs zināt, jauni datu avoti. Ja jums patīk, mums ir jaunas platformas ar sarežģītāku arhitektūru. Un Hadoop kļūst par ļoti, ļoti svarīgu, pietiekamu datu sagatavošanai mūsu šķidrajām smilšu kastēm, arhīvu vaicājumiem, arhīviem no datu noliktavas, datu pārvaldībai, kas izplata savus spārnus, pārsniedzot datu glabāšanu, lai pārvaldītu datus visās šajās platformās, kā arī jauniem instrumentiem spēj analizēt un piekļūt datiem šajās vidēs, lai būtu mērogojamas tehnoloģijas, lai labāk izmantotu datus, un mērogojot analītiku, nospiežot tos uz platformām, lai padarītu tos vairāk paralēlus. Un tad, cerams, arī vienkāršosim piekļuvi tam visam, izmantojot jauno SQL. Tātad, tas sniedz jums priekšstatu par to, kur mēs atrodamies. Tātad ar to es atgriezīšos, domāju, Ēriks, vai tas ir?

Ēriks: Labi, tas ir fantastiski. Un cilvēkiem, man jāsaka, starp to, ko jūs tikko ieguvāt no Robina un Maika, iespējams, tas ir apmēram tikpat izsmeļošs un kodolīgs visas ainavas pārskatā, sākot no tā, kā jūs to meklējat. Ļaujiet man iet uz priekšu un vispirms rindā stāvēt Džordžam Korugedo. Un tur tas ir Ļaujiet man to uz brīdi sekot. Labi, Džordž, es tev taisīšu atslēgas un aizvedīšu to prom. Stāvs ir tavs.

Džordžs: Lieliski! Liels paldies, Ēriks, un paldies, Robs un Maiks. Tā bija lieliska informācija un daudz ko mēs piekrītam. Tātad, atgriežoties pie Robina diskusijas, jo, jūs zināt, tā nav nejaušība, ka šeit atrodas RedPoint un šeit ir SAS. Tā kā RedPoint, mēs patiešām koncentrējamies uz tā datu pusi uz pārvaldību, datu apstrādi un sagatavošanu lietošanai analītikā. Tātad, ļaujiet man tikai pārmeklēt šos divus slaidus. Un tiešām, runājot par Robina teikto un runājot par MDM, un cik tas ir svarīgi un cik noderīgs, es domāju - un mēs domājam - Hadoop var būt MDM un datu kvalitātes pasaulē.

Jūs zināt, Robins mazliet runāja par, jūs zināt, kā tas ir saistīts ar uzņēmuma datu noliktavas pasauli, un es nāku - jūs zināt, es vairākus gadus esmu pavadījis Accenture. Un tas, kas tur bija interesants, ir tas, cik reizes mums nācās iedziļināties uzņēmumos un mēģināt izdomāt, ko darīt ar datu noliktavu, kas būtībā bija pamesta. Un daudz kas notika tāpēc, ka datu noliktavas komanda patiesībā nesaskaņoja savu versiju ar biznesa lietotājiem vai datu patērētājiem. Vai arī tas aizņēma tik daudz laika, ka līdz brīdim, kad viņi lietu bija izveidojuši, biznesa lietojums vai tā biznesa pamatojums bija mainījies.

Un viena no lietām, kas, manuprāt, mani ļoti aizrauj, ideja par Hadoop izmantošanu galveno datu pārvaldībai, datu kvalitātei un datu sagatavošanai ir fakts, ka vienmēr varat atgriezties pie atomu datiem Hadoop datu ezers vai datu rezervuārs, vai datu krātuve, vai centrmezgls, vai kāda cita ieteiktā veidlapa, kuru vēlaties izmantot. Bet tā kā jūs vienmēr glabājat šos atomu datus, jums vienmēr ir iespēja veikt atkārtotu saskaņošanu ar biznesa lietotājiem. Tā kā kā analītiķis - jo es faktiski sāku savu statistiķa karjeru -, jūs zināt, ka nekas nav sliktāks par to, kā jūs zināt, uzņēmuma datu noliktavas ir brīnišķīgas, lai vadītu pārskatus, bet, ja vēlaties veikt patiesi paredzamu analītiku, viņi tas tiešām nav tik noderīgi, jo tas, ko jūs patiešām vēlaties, ir granulēti uzvedības dati, kas kaut kādā veidā tika apkopoti un apkopoti datu noliktavā. Tātad, es domāju, ka šī ir patiešām svarīga iezīme, un tā ir viena lieta, par kuru es domāju, ka es varētu nepiekrist Robinam, ir tas, ka es personīgi pēc iespējas ilgāk atstātu datus datu ezerā vai datu centrā, jo tik ilgi, kamēr dati ir tur, un tas ir tīrs, jūs varat uz to paskatīties no viena vai otra virziena. Varat to apvienot ar citiem datiem. Jums vienmēr ir tāda iespēja atgriezties pie tā un veikt pārstrukturēšanu, pēc tam pārvērtējot sevi ar biznesa vienību un nepieciešamību, kāda šai vienībai varētu būt.

Viens no otra veida interesantiem jautājumiem šajā sakarā ir tas, ka, tā kā tā ir tik jaudīga skaitļošanas platforma, liela daļa no šīs darba slodzes, par kuru mēs runājām, mēs redzam, ka tas viss nonāk tieši Hadoop. Un, lai gan, manuprāt, Maiks runāja par visām dažādajām tehnoloģijām, kas pastāv pasaulē - šāda veida lielo datu ekosistēmā, mēs domājam, ka Hadoop patiešām ir darba zirgs, lai veiktu tik lielu mērogu skaitļošanas intensīvā apstrādē, ka nepieciešami pamata dati un datu kvalitāte. Tā kā, ja jūs to varat izdarīt, jūs zināt, tikai milzīgo ekonomisko datu pārvietošanu no dārgajām datu bāzēm un ekonomiskām datu bāzēm, tas patiešām veicina tik lielu datu pārņemšanu šobrīd lielajos uzņēmumos.

Tagad, protams, ir daži izaicinājumi, vai ne? Apkārt tehnoloģijām ir problēmas. Daudzi no viņiem ir ļoti nenobrieduši. Es teiktu: jūs zināt, es nezinu, cik daudz, bet vairākas tehnoloģijas, kuras Maiks pieminēja, joprojām ir ar nulles punktu, kaut ko izlaiž, vai ne? Tātad, šīs tehnoloģijas ir ļoti jaunas, ļoti nenobriedušas, joprojām balstītas uz kodiem. Un tas tiešām rada izaicinājumu uzņēmumiem. Un mēs patiešām koncentrējamies uz uzņēmuma līmeņa problēmu risināšanu. Tāpēc mēs domājam, ka ir jābūt citam ceļam, un tas ir tas, ko mēs ierosinām, ir atšķirīgs veids, kā rīkoties ar dažām lietām, izmantojot dažas no šīm ļoti topošajām tehnoloģijām.

Un tā, un tad vēl viens interesants jautājums, kas tika minēts iepriekš, kas ir tas, ka tad, ja jums ir dati, kurus jūs tverat jebkura veida Hadoop vidē, jūs zināt, tā parasti ir shēma lasīšanai, nevis shēma rakstīšanai ar dažiem izņēmumiem. Un, lasot, daudz to dara statistiķi. Tātad statistiķiem ir jābūt rīkiem, kas viņiem ļauj pareizi strukturēt datus analītiskiem nolūkiem, jo dienas beigās, lai dati būtu noderīgi, tie ir jāveido tādā formā, lai redzētu dažus vai atbildētu uz jautājumu, vai bizness, kaut kāds uzņēmējdarbības veids, rada biznesa vērtību.

Tātad, kur mēs ienākam, mums ir ļoti plaša un nobriedusi EPL, ELT datu kvalitātes galvenā atslēga un pārvaldības lietojumprogramma. Tas tirgū ir bijis daudzus, daudzus gadus. Tam ir visas tās funkcijas vai liela daļa funkcionalitātes, ko Robins uzskaitīja šajā apļveida diagrammā - viss, sākot no tikai tīru neapstrādātu datu uztveršanas visdažādākajos formātos un XML struktūrās un lielākās daļās, līdz spējai veikt visu tīrīšanu, datu pabeigšana, datu labošana, datu ģeotelpisko kodolu biti. Tas ir kaut kas, kas šajās dienās kļūst arvien svarīgāks, izmantojot lietu internetu. Jūs zināt, ka ģeogrāfija ir saistīta ar lielu daļu no tā, ko mēs darām, vai lielu daļu no šiem datiem. Tātad viss parsēšana, marķēšana, tīrīšana, labošana, formatēšana, strukturēšana utt. Tas viss tiek darīts mūsu platformā.

Un tad, un, iespējams, mēs domājam, ka vissvarīgākā ir deduplikācijas ideja. Jūs zināt, ka, ja aplūkojat jebkādu pamatdatu pārvaldības definīciju, tās kodols ir dedukcija. Tas spēs identificēt entītijas dažādos datu avotos un pēc tam izveidot pamatierakstu šai entītijai. Un šī vienība varētu būt persona. Uzņēmums varētu būt, piemēram, lidmašīnas daļa. Uzņēmums varētu būt pārtika, kādu mēs esam darījuši vienam no mūsu veselības kluba klientiem. Mēs viņiem esam izveidojuši galveno pārtikas datu bāzi. Neatkarīgi no tā, ar kādām entītijām mēs strādājam, - un, protams, arvien vairāk ir cilvēku un viņu identitātes tuvinājumu, kas ir tādas lietas kā sociālie rokturi vai konti, neatkarīgi no ierīcēm, kas saistītas ar cilvēkiem, dažas lietas, piemēram, automašīnas un tālruņi un jebkurš cits, ko jūs varētu iedomāties.

Jūs zināt, mēs strādājam ar klientu, kurš sporta apģērbā ieliek visa veida sensorus. Tātad, dati nāk no visiem virzieniem. Un vienā vai otrā veidā tas ir galvenās būtnes atspoguļojums vai attēlojums. Un arvien vairāk, tas ir cilvēki un spēja noteikt sakarības starp visiem šiem datu avotiem un to, kā tie attiecas uz šo galveno entītiju, un pēc tam spēt izsekot šo galveno entītiju laika gaitā, lai jūs varētu analizēt un izprast izmaiņas starp šo entītiju. un visi citi elementi, kas atrodas šīs entītijas reprezentācijās, piemēram, patiešām kritiski ilgstošai un gareniskai analīzei. Un tas tiešām ir viens no patiešām svarīgajiem ieguvumiem, ko, manuprāt, lieli dati mums var dot, ir daudz labāka cilvēku izpratne un ilgtermiņā, kā arī izpratne par to, kā cilvēki uzvedas, izturoties caur kādām ierīcēm utt. .

Tātad, ļaujiet man ātri pārvietoties šeit. Ēriks pieminēja dziju. Ziniet, es to iemetu tikai uz sekundi, jo, kamēr dzija - cilvēki runā par dziju. Manuprāt, joprojām ir daudz neziņas par YARN. Un patiesībā nav daudz cilvēku - joprojām ir daudz neizpratnes par YARN. Un fakts ir tāds, ka, ja jūsu lietojumprogramma ir veidota pareizi, un jūsu lietojumprogrammas arhitektūrā ir piemērots līmenis vai paralēles, tad varat izmantot YARN, lai Hadoop izmantotu kā savu mērogošanas platformu. Un tieši to mēs esam izdarījuši.

Jūs atkal zināt, tikai lai norādītu uz dažām definīcijām ap YARN. Mums patiešām tas, kas ir YARN, ir ļāvis mums pašiem un citām organizācijām kļūt par MapReduce un Spark, kā arī visiem citiem rīkiem, kas tur atrodas. Bet fakts ir tāds, ka mūsu lietojumprogrammas optimizēto kodu tieši YARN ievada Hadoop. Un tur ir patiešām interesants komentārs, ko Maiks pieminēja, jo, jūs zināt, jautājums par analītiku un mūsu analītiku tikai tāpēc, ka viņi atrodas klasterī, vai viņi tiešām darbojas paralēli? Jūs varat uzdot to pašu jautājumu par daudziem datu kvalitātes rīkiem, kas ir pieejami.

Dienas laikā kvalitatīvajiem rīkiem, kas ir pieejami, vai nu ir jāizņem dati, vai arī viņi ievada kodu. Un daudzos gadījumos tā ir viena datu plūsma, kas tiek apstrādāta jūsu darbības veida dēļ. salīdziniet ierakstus, dažreiz datu kvalitātes veida darbībās. Un patiesība ir tāda, ka tāpēc, ka mēs izmantojam YARN, mēs esam varējuši patiešām izmantot paralēles priekšrocības.

Un tikai tāpēc, lai sniegtu jums ātru pārskatu, jo tiek izteikts vēl viens komentārs par to, cik svarīgi ir paplašināt tradicionālās datu bāzes, jaunas datu bāzes utt., Kuras mēs ieviešam vai mēs instalējam ārpus klastera. Un mēs bināros failus ievietojam tieši resursu pārvaldniekā YARN. Un tas, un pēc tam YARN to izplata pa kopas mezgliem. Un kas tas ir, ir tas, ka YARN - mēs ļaujam YARN pārvaldīt un veikt savu darbu, tas ir, izdomāt, kur ir dati, un veikt darbu pie datiem, kodu pie datiem un nepārvietot datus apkārt. Dzirdot datu kvalitātes rīkus un viņi stāsta par labāko praksi, ir pārvietot datus no Hadoop un darboties visu mūžu, jo tas tā nav. Jūs vēlaties izmantot datus. Un tieši to YARN dara vispirms. Tas aizved mūsu bināros failus uz mezgliem, kur atrodas dati.

Un tāpēc, ka mēs atrodamies ārpus klastera, mēs varam piekļūt arī visām tradicionālajām un relāciju datu bāzēm, lai mums būtu darbavietas, kas ir 100% klienta serveri tradicionālā datu bāzē, 100% Hadoop vai hibrīdi darbi, kas iet pāri Hadoop klienta serverim. , Oracle, Teradata - neatkarīgi no tā, ko vēlaties un visi strādā vienā un tajā pašā darbā, jo šī viena ieviešana var piekļūt abām pasaules malām.

Un tad, atgriežoties pie visas idejas par rīku paaudzi, redzat šeit, tas ir tikai vienkāršs attēlojums. Un tas, ko mēs cenšamies darīt, ir vienkāršot pasauli. Un kā mēs to darām, apvienojot ļoti plašu funkcionalitātes kopumu ap HDFS, lai to padarītu… Un tas nav tāpēc, ka mēs cenšamies likvidēt visas novatoriskās tehnoloģijas. Uzņēmumiem ir vajadzīga stabilitāte, un viņiem nepatīk uz kodiem balstīti risinājumi. Un tāpēc mēs cenšamies dot uzņēmumiem pazīstamu, atkārtojamu un konsekventu lietojumprogrammu vidi, kas tiem dod iespēju veidot un apstrādāt datus ļoti paredzamā veidā.

Ātri, šāda veida ietekme tiek panākta, izmantojot mūsu lietojumprogrammu. Jūs redzat MapReduce vs Pig vs RedPoint - RedPoint nav kodu rindu. Sešas stundas izstrādes MapReduce, trīs stundas izstrāde Cūkā un 15 minūtes izstrāde RedPoint. Un tieši šeit mums ir milzīga ietekme. Apstrādes laiks ir arī ātrāks, bet ievērojami palielinās cilvēku laiks, cilvēku produktivitātes laiks.

Un, noslēdzot pēdējo slaidu, es vēlos atgriezties pie šīs idejas, jo tas ir mūsu pienākums izmantot datu ezeru vai datu centru, vai datu pārstrādes rūpnīcu kā centrālo norīšanas punktu. Es nevarētu vairāk piekrist šai idejai. Un mēs šobrīd diskutējam ar daudziem galveno pasaules banku galvenajiem datu apstrādātājiem, un šī ir izvēles arhitektūra.Datu pārņemšana no visiem avotiem veic datu kvalitātes apstrādi un galveno datu pārvaldību datu ezerā, un pēc tam ievietojiet datus tur, kur tam jāiet, lai atbalstītu lietojumprogrammas, lai atbalstītu BI neatkarīgi no tā, kas tas varētu būt. Un tad, ja jums ir analītika BI, viņi var darboties tieši datu ezerā, kur vēl labāk, ka var sākties tūlīt. Bet ļoti uz klāja ar šo ideju. Šī topoloģija ir tāda, kas ir - tas, ka mēs atrodam, ir guvuši lielu vilces spēku tirgū. Un tas arī viss.

Ēriks: Labi, labi. Pārvietosimies tieši šeit. Es iešu uz priekšu un nodošu to Keitai. Un, Keita, tev bija apmēram 10, 12 minūtes, lai šeit uzminētu māju. Šajās izrādēs mums vajadzēja mazliet aiziet. Un par šo mēs reklamējām 70 minūtes. Tātad, dodieties uz priekšu un noklikšķiniet uz jebkura šī slaida un izmantojiet lejupvērsto bultiņu un noņemiet to.

Keita: Protams. Nav problēmu, Ēriks. ES to novērtēju. Es gatavojos iet uz priekšu un uzzināšu tikai dažus fragmentus par SAS, pēc tam es iešu tieši tehnoloģiju arhitektūrā, kur SAS krustojas ar lielo datu pasauli. Visās šajās lietās ir daudz ko izskaidrot. Mēs varētu pavadīt stundas, lai to izpētītu ļoti detalizēti, bet desmit minūtes - jums vajadzētu būt iespējai doties prom tikai ar īsu izpratni par to, kur SAS ir ievedis analītiku, datu pārvaldību un biznesa informācijas tehnoloģijas šajā lielajā datu pasaulē.

Pirmkārt, nedaudz par SAS. Ja jūs neesat pazīstams ar šo organizāciju, mēs pēdējos 38 gadus nodarbojamies ar progresīvu analītiku, biznesa informāciju un datu pārvaldību, pēdējos 38 gadus sniedzot ne tikai lielus datus, bet arī mazus datus un datu bagātību. Mums ir milzīgs esošo klientu klāsts, apmēram 75 000 vietņu visā pasaulē, kas sadarbojas ar dažām no labākajām organizācijām. Mēs esam privāta organizācija, kurā strādā apmēram 13 000 darbinieku un ieņēmumi ir 3 miljardi USD. Un tiešām, es domāju, ka svarīga sastāvdaļa ir tā, ka mums jau sen ir bijusi vēsture, kurā ievērojamas ieņēmumu summas tiek ieguldītas atpakaļ mūsu pētniecības un attīstības organizācijā, kas patiešām ir radījis lielu daļu no šīm apbrīnojamajām tehnoloģijām un platformām, kuras jūs esat ”. es došos šodien redzēt.

Tātad, es iešu tieši šajās šausmīgajās arhitektūras diagrammās. Manos slaidos strādāsim no kreisās uz labo pusi. Tātad ir zināmas lietas, kuras jūs redzēsit šajā platformā. Kreisajā pusē visi tie datu avoti, par kuriem mēs runājam, tiek ievadīti šajās lielajās datu platformās. Un tad jums ir šī lielā datu platforma.

Es ne tikai augšpusē ievietoju vārdu Hadoop, jo galu galā piemēri, ko šodien sniegšu, ir īpaši par visām tehnoloģijām, kurās mēs krustojamies ar šīm lielajām datu platformām. Hadoop vienkārši ir viens no tiem, kur mums ir dažas no visspēcīgākajām izvietošanas iespējām, taču mēs arī krustojamies diezgan daudz un kādu laiku esam izstrādājuši daudz šo tehnoloģiju ar dažiem citiem mūsu uzņēmuma datu noliktavas partneriem, piemēram, Teradata, Oracle, Pivotal un tamlīdzīgi. Tāpēc es nevaru iedziļināties detalizēti, jo visas platformas atbalsta visas dažādās tehnoloģijas, bet es varu būt drošs, ka visas tās, kuras es šodien aprakstīju, lielākoties ir tas, ko Hadoop, un liela daļa no tām krustojas ar citiem tehnoloģiju partneriem, kuri mums ir. Tātad, mums ir tik liela šī platforma, kas tur sēž.

Nākamais tieši pa labi, mums ir savs SAS LASR Analytic Server. Tagad tas būtībā ir diezgan liels paralēlais atmiņas analītisko lietojumprogrammu serveris. Mums būtu skaidrs, ka tā nav datu bāze atmiņā. Tas ir patiešām veidots no paša sākuma. Tas nav vaicājumu dzinējs, bet ir paredzēts analītisko pieprasījumu masveida apkalpošanai masveidā un paralēli. Tas ir, pakalpojuma atslēgas lietojumprogrammas, kuras redzat tur labajā pusē.

Mēs mazliet iedziļināsimies, kā jūs zināt, kā cilvēki izvieto šīs lietas. Bet būtībā pieteikums - vai jūs to redzat - pirmais, ir mūsu SAS augstas veiktspējas analītika. Tā tas būs - es izmantoju lielu daļu no mūsu esošajām tehnoloģijām un platformām, piemēram, Enterprise Miner vai tikai SAS, un ne tikai daudzkārt veidoju ar dažiem no šiem algoritmiem, kas mums ir iebūvēti tajos rīkos, kurus esam paveikuši gadu laikā, bet arī masveidā paralēli tiem. Tātad, lai pārvietotu datus no šīs lielās datu platformas uz atmiņas telpu uz šo LASR Analytic Server, lai mēs varētu izpildīt analītiskos algoritmus - jūs zināt, daudz jaunu mašīnu apguves, neironu tīkli, nejaušas meža regresijas, šāda veida lietas - atkal dati atmiņā. Tātad, atbrīvojoties no šī noteiktā MapReduce paradigmas sašaurinājuma, kur mēs nonākam pie šīm platformām, tas nav tas, kā jūs vēlaties veikt analītisko darbu. Tātad, mēs vēlamies, lai mēs varētu vienu reizi datus ievietot atmiņas telpā un atkārtot tos, kā jūs zināt, dažreiz tūkstošiem reižu. Tātad, tas ir šī augstas veiktspējas analītiskā LASR servera izmantošanas jēdziens.

Mēs - arī citas lietojumprogrammas, kas atrodas zem tā, vizuālā analītika, kas ļauj mums saglabāt šos datus atmiņā un apkalpot lielāku to pašu datu kopu. Tātad, ļaujot cilvēkiem veikt lielo datu izpēti. Tāpēc pirms modeļa izstrādes darbu veikšanas mēs pētām datus, saprotam tos, izmantojam korelācijas, veicam prognozes vai veidojam lēmumu kokus - tādas lietas -, bet ļoti vizuālā, interaktīvā veidā par datiem, kas atrodas atmiņā platforma. Tas kalpo arī mūsu BI kopienai, ja ir ļoti plašs lietotāju loks, kas var piekļūt šai platformai, lai veiktu standarta ierakstīšanas veidus, kurus jūs redzējāt - kas, protams, ir jebkurš, jūs zināt, BI pārdevējs.

Nākamais solis tiek pārvietots uz ekspluatāciju. Un lai palīdzētu mūsu statistiķiem un mūsu analītikas darbiniekiem spēt veikt šāda veida ad-hoc modelēšanu ar atmiņā esošiem datiem, kas izņemti no vizuālās analītikas un izpētīti mūsu vizuālās statistikas lietojumprogrammā. Šī ir iespēja cilvēkiem izmantot, neveikt statistiku partijās, kuras savulaik it kā atkārtoja, palaist modeļus, redzēt rezultātus. Tātad, kas var palaist modeli, skatiet rezultātus. Tas ir paredzēts, lai vizuāli ievilktu interaktīvo statistisko modelēšanu. Tas kalpo mūsu statistiķiem un mūsu datu zinātniekiem, lai viņi daudz paveiktu agrīnās izpētes vizuālās statistikas darbā.

Un tad mēs neesam aizmirsuši savus kodētājus - ļaudīm, kuri patiešām vēlas, lai varētu novirzīt saskarnes slāņus pretī, ir rakstīt lietojumprogrammas un uzrakstīt savu kodu bāzi SAS. Un tāda ir mūsu Hadoop statistika atmiņā. Un tas ir - būtībā koda slānis, kas ļāva mums mijiedarboties ar šo Analytic LASR serveri, lai tieši izdotu komandas un pielāgotu šīs lietojumprogrammas, pamatojoties uz mūsu pieprasījumu. Tas ir analītiskais gabals.

Kā šīs lietas tiek iestatītas… Hmm, es atvainojos, puiši. Tur mēs ejam.

Tātad, tas tiešām ir pāris veidos. Viens ir to darīt ar lieliem datiem - šajā gadījumā ar Hadoop. Un tur mums ir SAS LASR Analytic Server, kas darbojas atsevišķā mašīnu klasterī, kas ir optimizēts hardcore analītikai. Tas ir ievietots jaukā vietā tuvu lielajai datu platformai, ļaujot mums to pielāgot atsevišķi no lielās datu platformas. Tātad, mēs redzam, ka cilvēki to dara, kad viņi nevēlas, lai man būtu kaut kas tāds, ko raksturoju kā vampīru programmatūru, kas apēd katru mezglu viņu Hadoop klasterī. Un tie ne vienmēr mērogo šo lielo datu platformu, kas ir piemērota, lai veiktu smago celšanu atmiņā. Tātad jums varētu būt 120 viņu Hadoop klastera mezglu, bet viņiem varētu būt 16 analītisko serveru mezgli, kas ir paredzēti šāda veida darbam.

Mums joprojām ir atļauts saglabāt šo paralēlismu no lielās datu platformas, lai datus ievilktu atmiņā. Tātad, tas tiešām ir SAS lietojums ar Hadoop platformu. Cits iecelšanas modelis nozīmē, ka labi, mēs varam izmantot arī šo preču platformu un virzīt to - būtībā vadīt Analītisko LASR serveri Hadoop platformās. Tātad, šeit mēs atrodamies ... jūs darbojaties lielo datu platformā. Tas attiecas arī uz dažiem citiem mūsu ierīču pārdevējiem. Tas ļāva mums būtībā izmantot šo preču platformu, lai veiktu šo darbu.

Mēs redzam, ka biežāk ar tādām lietām kā augstas veiktspējas analītika, kur tas ir vienreizējs vai vienreizējs analītisks paņēmiens, vairāk uz partijām orientēts tur, kur jūs atrodaties - jūs nevēlaties, lai patērētu Hadoop atmiņu. platforma. Mēs ļoti elastīgi izmantojam šāda veida izvēršanas modeli, noteikti strādājot ar YARN daudzos gadījumos, lai pārliecinātos, ka mēs spēlējam jaukas kopas.

Labi, ka tāda ir analītiskā pasaule, tikai lai būtu skaidrs ar analītisko pielietojumu. Bet es minēju, ka SAS jau pašā sākumā ir arī datu pārvaldības platforma. Un ir lietas, kuras ir piemērotas loģikas iespiešanai tajā platformā. Tātad, ir daži veidi, kā mēs to darām. Viens no tiem ir datu integrācijas pasaulē, veikt datu pārveidošanas darbu ar datiem, iespējams, nav jēgas tos atkal izņemt, kā mēs jau esam dzirdējuši, izmantojot lielas kvalitātes datu kvalitātes procedūras. Mēs vēlamies noteikti iespiest tajā platformā tādas lietas kā datu kvalitātes kārtība. Un tad tādas lietas kā modeļa vērtēšana. Tātad, es esmu izstrādājis savu modeli. Es nevēlos šo lietu pārrakstīt MapReduce, un man ir grūti un laikietilpīgi šo darbu pārtaisīt vietējās datu bāzes platformā.

Tātad, ja paskatās, piemēram, uz mūsu Hadoop punktu skaita paātrinātāju, kas ļauj mums būtībā ņemt modeli un iebīdīt SAS matemātisko loģiku tajā Hadoop platformā un tur to izpildīt, izmantojot paralēlismu, kas atrodas tajā lielajā datu platformā. Pēc tam mums ir savs koda paātrinātājs dažādām platformām, ieskaitot Hadoop, un tas ļauj mums būtībā paralēli darbināt SAS datu soļa kodu platformas iekšienē - tātad, veicot datu pārveidošanas darbus platformā. Un tad mūsu SAS datu kvalitātes paātrinātājs, kas ļauj mums tur sēdēt ar kvalitatīvu zināšanu bāzi, kurā var veikt tādas lietas kā dzimumu saskaņošana, standartizācijas atbilstības kods - visas dažādās datu kvalitātes lietas, kuras esat dzirdējuši jau šodien.

Un tad, pēdējais, ir datu ielādētājs. Mēs zinām, ka mūsu biznesa lietotājiem būs jāspēj nevajadzēt rakstīt kodu un veikt datu pārveidošanas darbus šajās lielajās datu platformās. Datu ielādētājs ir jauka WYSIWYG GUI, kas ļauj mums apkopot šīs citas tehnoloģijas. Tas ir tāpat kā caurskatīšanas vednis, teiksim, izpildīt Hive vaicājumu vai datu kvalitātes rutīnu, un tādā gadījumā nav jāraksta kods.

Pēdējais, ko es pieminēšu, ir šis priekšmets. Mums, kā jau iepriekš minēju, ir milzīga SAS kāja, kas atrodas pasaulē. Un to mēs nevaram darīt obligāti tikai visām tām platformām, kuras atrodas, lai nekavējoties atrastos šajā telpā. Tātad, mums noteikti ir esoša lietotāju grupa, kurai jāiegūst dati, kas atrodas šajās lielajās datu platformās, piemēram, lai iegūtu datus no Teradata un ievietotu tos atpakaļ Hadoop, un otrādi. Palaižot modeļus, es jau zinu, kā palaist savos SAS serveros, bet man ir jāsaņem dati, kas tagad tiek ievietoti Hadoop platformā. Tātad, tur ir šī otra mazā ikona, kuras nosaukums ir “no”, un kas ļauj mums izveidot savienojumu, izmantojot mūsu SAS piekļuves motorus - piekļuves motorus Hadoop līdz Cloudera Polā, līdz Teradata, uz Greenplum līdz… Un saraksts turpinās. Tas ļauj mums izmantot mūsu jau esošās nobriedušās SAS platformas, kas jau ir izveidotas, lai iegūtu datus no šīm platformām, veiktu darbu, kas mums jādara, un panāktu rezultātus šajās jomās.

Pēdējais, ko es pieminēšu, ir tas, ka visas šīs tehnoloģijas, kuras jūs redzat, pārvalda vieni un tie paši standarta kopējie metadati. Tātad, mēs runājam par pārveidošanas darba iegūšanu, datu kvalitātes noteikumu darbā, tā pārvietošanu atmiņā, lai varētu veikt analītiku, modeļa izstrādi vērtēšanā. Mums ir pieejams viss analītiskais dzīvesveids, dzīves ciklu regulē kopīgi metadati, pārvaldība, drošība un visas lietas, par kurām mēs šodien runājām.

Tātad, vienkārši sakot, tur tiešām ir trīs svarīgākās lietas, kuras man aiznest. Pirmkārt, mēs varam izturēties pret datu platformu tāpat kā ar jebkuru citu datu avotu, pavelkot no tiem, piespiežot pie tiem, kad tas ir piemērots un ērts. Mēs varam strādāt ar šīm lielajām datu platformām, uzskaitot datus mērķa veidotā uzlabotā analītikā atmiņas platformā. Tas ir LASR serveris.

Un tad, visbeidzot, mēs varam strādāt tieši tajās lielajās datu platformās, izmantojot to izplatīšanas apstrādes iespējas, nepārvietojot datus.

Ēriks: Nu, tas ir fantastiski sīkumi, ļaudis. Jā, tas ir lieliski! Tāpēc ienesīsim dažus jautājumus. Šajos pasākumos parasti mēs ejam apmēram 70 minūtes vai nedaudz ilgāk. Tātad, es redzu, ka mums joprojām ir lieliska auditorija. Džordž, es domāju, ka es jums uzdošu mūsu pirmo jautājumu. Ja jūs runājat par sava binārā skaņas iespiešanu Hadoop, es domāju, ka tas man izklausās tā, it kā jūs patiešām būtu optimizējis skaitļošanas darbplūsmu. Un tas ir viss atslēga, lai varētu veikt šāda veida reāllaika datu pārvaldību un sasniegumus datu kvalitātes stilā, jo tieši tā ir vērtība, kuru vēlaties iegūt, vai ne? Ja jūs nevēlaties atgriezties MDM vecajā pasaulē, kur tas ir ļoti apgrūtinoši un laikietilpīgi, un jums tiešām jāpiespiež cilvēki rīkoties noteiktos veidos, kas gandrīz nekad nedarbojas. Un tā, ko esat paveicis, jūs saīsinājāt to, kas bija. Sauksim to par dienām, nedēļām, dažreiz pat mēnešiem līdz sekundēm, vai ne? Vai tas notiek?

Džordžs: Tas ir pilnīgi pareizi, jo mūsu iegūtais mērogs un sniegums, ko mēs iegūstam no kopas, ir patiešām satriecoši, vienkārši zinot, es vienmēr mazliet vilcinos par etaloniem. Bet tikai tādā apjomā, kad mēs pārvaldītu miljarda, 1,2 miljardu ierakstus un veiktu pilnīgu adreses standartizāciju - es saku, ka vidējas klases HP mašīna - tas prasītu, piemēram, astoņas procesora mašīnas, jūs zināt , 2 gb RAM vienā kodolā, jūs zināt, tas darbotos 20 stundās. Mēs to varam paveikt aptuveni astoņu minūšu laikā 12-mezglu klasterī, jūs zināt. Tātad apstrādes apjoms, ko mēs tagad varam veikt, ir tik dramatiski atšķirīgs, ka - un tas ļoti labi saskan ar domu, ka jūsu rīcībā ir visi šie dati. Tāpēc apstrāde nav tik riskanta. Ja izdarījāt nepareizi, varat to pārtaisīt. Jums ir laiks, jūs zināt. Tas patiešām mainīja šīs jomas mērogu, kur, jūs zināt, šāda veida riski cilvēkiem patiešām kļuva par reālām biznesa problēmām, kad viņi mēģināja darbināt MDM risinājumus. Jums ir jābūt 30 cilvēkiem ārzonās, kas veic datu pārvaldību, un viss. Un tā, jums vēl kaut kas tāds ir jādara, bet ātrums un mērogs, kādā jūs to varat apstrādāt tagad, patiešām dod jums daudz vairāk elpošanas telpas.

Ēriks: Jā, tas ir patiešām ļoti labs punkts. Man patīk šis komentārs. Tātad, jums ir laiks to vēlreiz pārtaisīt. Tas ir fantastiski.

Džordžs: Jā.

Ēriks: Nu, tas maina dinamiku, vai ne? Tas maina to, kā jūs domājat par to, ko plānojat izmēģināt. Es domāju, ka es to atceros pirms 18 gadiem nozarē, kurā darbojās specefekti, jo man bija klients, kurš atradās šajā telpā. Un jūs nospiestu pogas, lai to padarītu, un jūs dotos mājās. Un jūs varētu atgriezties, iespējams, sestdienas pēcpusdienā, lai redzētu, kā tas noritēja. Bet, ja jūs sapratāt nepareizi, tas bija ļoti, ļoti, ļoti sāpīgi. Un tagad tas ne tuvu nav tuvu - tas nemaz nav tik sāpīgi, lai jums būtu iespēja izmēģināt citas lietas. Man jāsaka, es domāju, ka tas ir patiešām ļoti labs punkts.

Džordžs: Tas ir tieši tā. Jā, un tu izpūt savu papildu kāju. Jūs zināt, ja vecajās dienās esat nokļuvis pusceļā, un tas neizdodas, jūs esat izpūstis savu SOS. Tieši tā.

Ēriks: Pareizi. Un jums ir lielas nepatikšanas, jā. Tas ir pareizi.

Džordžs: Tas ir pareizi. Tas ir pareizi.

Ēriks: Keita, ļaujiet man to pārmest jums. Es atceros, ka veica interviju ar jūsu CIL, Keith Collins, un es uzskatu, ka atpakaļ, es domāju, varbūt 2011. gads. Un viņš daudz runāja par virzienu, ko SAS virza īpaši attiecībā uz darbu ar klientiem, lai iegultu no SAS iegūto analītiku operētājsistēmās. Un, protams, mēs dzirdējām Maiku Fergusonu runājam par atcerēšanās nozīmi. Visa ideja ir tāda, ka jūs vēlaties, lai varētu saistīt šo saturu savās darbībās. Jūs nevēlaties veikt analīzi vakuumā, kas ir atvienots no uzņēmuma. Tā nav nekāda vērtība.

Ja vēlaties veikt analīzi, kas var tieši ietekmēt un optimizēt operācijas. Un, ja es atskatos - un man jāsaka, es toreiz domāju, ka tā ir laba ideja -, tā retrospektīvi šķiet tiešām, patiešām gudra ideja. Es domāju, ka tā ir reāla priekšrocība, kāda jums ir. Un, protams, šis lieliskais mantojums, šī milzīgā instalēšanas bāze un tas, ka jūs esat koncentrējies uz šīs analītikas iegulšanu operētājsistēmās, kas nozīmē, ka tagad - un, protams, tas prasīs zināmu darbu - esmu pārliecināts, ka jūs ' Es diezgan smagi strādāju pie tā. Bet tagad jūs varat izmantot visas šīs jaunās inovācijas un patiešām cenšaties visu šo lietu izmantot klientiem. Vai tas ir taisnīgs novērtējums?

Keita: Jā, absolūti. Koncepcija ir tāda, ka jums rodas ideja par lēmumu izstrādi vai lēmumu zinātni, kas, jūs zināt, zināmā mērā ir izpētes, zinātnes veida lieta. Ja vien jūs nevarat veikt inženierijas šajā procesā, lai patiešām ... Ja jūs domājat par automašīnas attīstību, jums ir dizaineri, kas izgatavo šo skaisto automašīnu, bet tas ir tikai tad, kamēr inženieri nav izstrādājuši šo plānu un pirms jums izgatavo reālu dzīvotspējīgu produktu. faktiski var sakārtot lietas, un to būtībā ir izdarījis SAS. Tā ir sapludinājusi lēmumus - lēmumu pieņemšanas procesu ar lēmumu pieņemšanas procesu kopā, lai, runājot par paātrinātājiem, konkrēti ar punktu paātrinātājiem, jūs zināt, ja jūs izmantojat izstrādāto modeli un spējat to izstumt uz Teradata vai izsūtiet to Oracle vai Hadoop, bez modeļa izstrādes dīkstāves, modeļa ieviešanai. Tas ir galvenais, jo modeļi ar laiku pasliktinās, šo modeļu precizitāte. Tātad, jo ilgāk to ņemsiet un nodod ražošanā, tas zaudēs modeļa precizitāti.

Un tad, otrs gabals, jūs vēlaties, lai varētu uzraudzīt un pārvaldīt šo procesu laika gaitā. Jūs vēlaties nolietot modeļus, kad tie noveco un ir kļūdaini. Jūs vēlaties to apskatīt, laika gaitā pārbaudīt to precizitāti un atjaunot. Tātad, mums ir arī modeļa pārvaldības rīki, kas ir arī virs tiem un kas tiešām izseko metadatus ap modelēto procesu. Un cilvēki ir teikuši, ka modelēšana, jūs zināt, šāda veida koncepcija ir kā modeļa rūpnīca vai kāds cits, ko vēlaties to nosaukt. Lieta ir tā, ka metadatus un pārvaldību sakārtojam, un tieši šeit mēs sastopam trīs galvenās lietas - mēs palīdzam cilvēkiem nopelnīt naudu, ietaupīt naudu un turēt viņus no cietuma.

Ēriks: Arī pēdējais ir diezgan liels. Es cenšos no visa tā izvairīties. Tātad, parunāsim par ...Es uzdodu vienu pēdējo jautājumu, iespējams, jūs katrs varat uz to pārdomāt. Man šķiet, ka mūsu pasaules neviendabīgums tikai palielināsies. Es domāju, ka mēs noteikti redzēsim kādu kristalizāciju ap hibrīdo mākoņu vidi. Tomēr, neskatoties uz to, jūs redzēsit, kā darbojas daudzi galvenie spēlētāji. IBM nekur nedodas. Oracle nekur nedodas. SAP nekur neiet. Un ir tik daudz citu pārdevēju, kas ir iesaistīti šajā spēlē.

Arī operatīvajā pusē, kur jums burtiski ir tūkstošiem un tūkstošiem dažādu programmu. Un es dzirdēju - vairums no jums par to runā, bet es domāju, ka jūs abi piekrītat manis teiktajam. Mēs tagad esam redzējuši šo tendenci attiecībā tikai uz skaitļošanas jaudu analītiskajos dzinējos un arhitektūrā. Uzņēmumi jau gadiem ilgi runā par to, ka varētu izmantot citus tur esošos dzinējus un apkalpot sava veida orķestrēšanas punktu. Un es domāju, Džordž, es vispirms to iemetīšu jums. Man šķiet, ka tas ir kaut kas, kas nemainīsies. Mums būs šī neviendabīgā vide, kas nozīmē, ka pastāv tādas lietas kā reāllaika CRM un datu kvalitāte un datu pārvaldība. Jums kā pārdevējam būs jāveido saskarne ar visiem šiem dažādajiem rīkiem. Un to klienti vēlas. Viņi negribēs kaut ko tādu, kas ar šiem rīkiem der, un ar šiem rīkiem - ne tik labi. Viņi gribēs MDM un CRM Šveici, vai ne?

Džordžs: Tas ir pareizi. Un tas ir interesanti, jo mēs ļoti to esam uztvēruši. Daļa no tā ir vēsture, kas mums bija kosmosā. Un acīmredzot mēs jau strādājām pie visām pārējām datu bāzēm, Teradatām un pasaules gabaliem. Un pēc tam izveidojāt - ieviešanas procesā, it īpaši tā, kā mēs to darījām, tieši tā, lai tas jums būtu - tas ir visām šīm dažādajām datu bāzēm. Viena no lietām, kas man šķiet interesanta, ir tāda, ka mums ir daži klienti, kas ir vienkārši saspringti, lai likvidētu visas relāciju datu bāzes. Un tas ir interesanti. Jūs zināt, es domāju, ka viss ir kārtībā. Tas ir interesanti. Bet es vienkārši neredzu, ka tas patiešām notiek liela uzņēmuma mērogā. Es neredzu, ka tas notiek ilgu laiku. Tātad, es domāju, ka hibrīds atrodas šeit ilgu laiku un mūsu lietojumprogrammas otrajā pusē, kur mūsu kampaņu pārvaldības platformā ir mūsu ziņojumapmaiņas platforma. Mēs to faktiski esam īpaši izstrādājuši. Tagad mēs esam izlaiduši versiju, kas to dara un kas tagad var izveidot savienojumu ar hibrīdo datu vidi un vaicāt Hadoop, vai veikt vaicājumus no jebkuras datu bāzes, jebkuras analītiskas datu bāzes. Tāpēc es domāju, ka tas ir tikai nākotnes vilnis. Un es piekrītu, ka virtualizācijai šajā ziņā noteikti būs liela nozīme, bet mēs esam vienkārši - mēs precīzi izmantosim datus par visām mūsu lietojumprogrammām.

Ēriks: Labi, lieliski. Un, Keita, es to jums pārmetīšu. Ko jūs domājat par neviendabīgo pasauli, ar kuru mēs saskaramies, rīkojoties kā sava veida pēda?

Keita: Jā, tas ir patiešām aizraujoši. Es domāju, ka tas, ko mēs atrodam vairāk - ne tikai lietu datu pārvaldības pusē -, bet tas, kas šobrīd patiešām aizrauj, ir analītikas bāzes atvērtā koda raksturs. Tātad, mēs redzam, ka uz klāja ierodas tādas organizācijas kā tehnoloģijas vai tādas tehnoloģijas kā Spark, kā arī cilvēki, kas izmanto Python un R un visas šīs atvērtā pirmkoda tehnoloģijas. Es domāju, ka to zināmā mērā varētu interpretēt kā sava veida konfliktu vai draudus. Bet patiesībā mums ir daži patiešām brīnišķīgi komplimenti ar visām šīm atvērtā pirmkoda tehnoloģijām. Es domāju, pirmkārt, Dieva dēļ, mēs darbojamies uz atvērtā koda platformām.

Bet tāpat kā spēja integrēt, piemēram, R modeli SAS paradigmā, ļauj izmantot labāko no abām pasaulēm, vai ne? Tāpat kā, tāpēc mēs zinām, ka dažas no eksperimentālajām lietām akadēmiskajā pasaulē un dažas no modeļa izstrādes darbībām ir ārkārtas un super noderīgas modeļa izstrādes procesā. Bet arī, ja jūs varētu savienot to pārī ar ražošanas klases darbarīkiem, tas veic daudz tīrīšanas un kvalitātes, kā arī pārbauda un pārliecinās, vai modelī sniegtie dati ir, tas ir pareizi sagatavots, lai tas neizdotos par izpildi. Un pēc tam varēsim darīt tādas lietas kā čempionu izaicinātāju modeļi ar atvērtā koda modeļiem. Tās ir lietas, kuras mēs skatāmies iespēju nodrošināšanai, kā daļu no šo visu šo tehnoloģiju patiešām neviendabīgās ekosistēmas. Jā, tā tas ir vairāk - mums tas ir vairāk par to, kā aptvert šīs tehnoloģijas un meklēt komplimentus.

Ēriks: Nu, tas ir fantastiski, ļautiņi. Mēs šeit ilgi devāmies, taču mēs vēlētos uzzināt pēc iespējas vairāk jautājumu. Mēs šodien pārsūtīsim jautājumu un atbilžu failus mūsu vadītājiem. Tātad, ja uz kādu no jūsu uzdotajiem jautājumiem nav atbildēts, mēs pārliecināsimies, ka uz to tiks atbildēts. Un cilvēki, tas to iesaiņo 2014. gadam. Ar cieņu DM Radio rīt un nākamnedēļ, un tad tas ir izdarīts, un tas ir svētku pārtraukums.

Liels paldies jums visiem par jūsu laiku un uzmanību, ka esat apskatījis visas šīs lieliskās tīmekļa pārraides. Mums ir lielisks gads, kas sastāv no 2015. gada. Un mēs drīz ar jums sarunāsimies, ļaudis. Vēlreiz paldies. Mēs parūpēsimies. Labdien!