Kudu: spēļu mainītājs Hadoop ekosistēmā?

Video: Creating real time, data centric applications with Impala and Kudu

Saturs

Kas ir Kudu?
Kāds ir Kudus pašreizējais statuss?
Kā Kudu var papildināt HDFS / HBase?
Kudu ietvara iezīmes
Kā Kudu var mainīt Hadoop ekosistēmu?
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Secinājums

Avots: Agsandrew / Dreamstime.com

Izņemšana:

Kudu ir atvērtā koda projekts, kas palīdz efektīvāk pārvaldīt krātuvi.

Kudu ir jauns atvērtā koda projekts, kas nodrošina atjaunināmu krātuvi. Tas ir papildinājums HDFS / HBase, kas nodrošina secīgu un tikai lasāmu krātuvi. Kudu ir vairāk piemērots ātrai datu analīzei, kas pašlaik ir biznesa pieprasījums. Tātad Kudu nav tikai vēl viens Hadoop ekosistēmas projekts, bet drīzāk tam ir potenciāls mainīt tirgu. (Plašāku informāciju par Hadoop skatiet 10 vissvarīgākajos Hadoop terminos, kas jums jāzina un jāsaprot.)

Kas ir Kudu?

Kudu ir īpaša veida uzglabāšanas sistēma, kas strukturētus datus glabā tabulu veidā. Katrā tabulā ir iepriekš noteiktu kolonnu skaits. Katrā no tām ir galvenā atslēga, kas faktiski ir vienas vai vairāku šīs tabulas kolonnu grupa. Šī galvenā atslēga ir paredzēta, lai pievienotu ierobežojumu un nostiprinātu kolonnas, kā arī darbojas kā indekss, kas ļauj viegli atjaunināt un dzēst. Šīs tabulas ir datu apakškopas, ko sauc par planšetdatoriem.

Kāds ir Kudus pašreizējais statuss?

Kudu ir patiešām labi attīstīts, un tas jau ir saistīts ar daudzām funkcijām. Tomēr tas joprojām būs nepieciešams pulēšanai, ko var izdarīt vieglāk, ja lietotāji iesaka un veic dažas izmaiņas.

Kudu ir pilnībā atvērts avots, un tam ir Apache programmatūras licence 2.0. To ir paredzēts arī iesniegt Apache, lai to varētu attīstīt kā Apache inkubatora projektu. Tas ļaus tā attīstībai progresēt vēl straujāk un vēl vairāk palielināt savu auditoriju. Pēc noteikta laika Kudu izstrāde tiks publiskota un pārredzami. Daudzi uzņēmumi, piemēram, AtScale, Xiaomi, Intel un Splice Machine, ir apvienojušies, lai sniegtu ieguldījumu Kudu attīstībā. Kudu ir arī liela kopiena, kur liels skaits auditorijas jau sniedz savus priekšlikumus un ieguldījumu. Tātad cilvēki ir tie, kas virza Kudu attīstību.

Kā Kudu var papildināt HDFS / HBase?

Kudu nav domāts kā HDFS / HBase aizstājējs. Tas faktiski ir paredzēts gan HBase, gan HFDS atbalstam un darbojas līdzās, lai palielinātu to funkcijas. Tas ir tāpēc, ka HBase un HDFS joprojām ir daudz funkciju, kas dažās mašīnās padara tās jaudīgākas nekā Kudu. Kopumā šādas mašīnas no šīm sistēmām iegūs vairāk ieguvumu.

Kudu ietvara iezīmes

Kudu ietvara galvenās iezīmes ir šādas:

Īpaši ātra tabulas sleju skenēšana - labākajiem datu formātiem, piemēram, Parquet un ORCFile, ir vajadzīgas vislabākās skenēšanas procedūras, kuras Kudu lieliski risina. Šādiem formātiem ir nepieciešama ātra skenēšana, kas var notikt tikai tad, ja slejas dati ir pareizi kodēti.
Veiktspējas uzticamība - Kudu sistēma palielina Hadoop uzticamību, aizverot daudzas Hadoop esošās nepilnības un nepilnības.
Viegla integrācija ar Hadoop - Kudu var viegli integrēt ar Hadoop un tā dažādajiem komponentiem, lai panāktu lielāku efektivitāti.
Pilnīgi atvērts kods - Kudu ir atvērtā koda sistēma ar Apache 2.0 licenci. Tam ir liela izstrādātāju kopiena no dažādiem uzņēmumiem un fona, kas to regulāri atjaunina un sniedz ieteikumus izmaiņām.

Kā Kudu var mainīt Hadoop ekosistēmu?

Kudu tika uzbūvēts, lai ietilptu Hadoop ekosistēmā un uzlabotu tā funkcijas. To var arī integrēt ar dažiem Hadoop galvenajiem komponentiem, piemēram, MapReduce, HBase un HDFS. MapReduce darbi var sniegt datus vai ņemt datus no Kudu tabulām. Šīs funkcijas var izmantot arī Spark. Īpašs slānis padara dažus Spark komponentus, piemēram, Spark SQL un DataFrame pieejamus Kudu. Lai arī Kudu vēl nav izstrādāts tik daudz, lai aizstātu šīs funkcijas, tiek lēsts, ka pēc dažiem gadiem tas būs pietiekami izstrādāts, lai to izdarītu. Līdz tam Hadoop un Kudu integrācija ir patiešām ļoti noderīga un var aizpildīt lielās Hadoop ekosistēmas nepilnības. (Lai uzzinātu vairāk par Apache Spark, skatiet sadaļu Kā Apache Spark palīdz ātrai lietojumprogrammu izstrādei.)

Kudu var ieviest dažādās vietās. Daži šādu vietu piemēri ir sniegti zemāk:

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, ja nevienam nerūp programmatūras kvalitāte.

Ieeju straumēšana gandrīz reālā laikā - vietās, kur ievades jāsaņem ASAP, Kudu var veikt ievērojamu darbu. Šādas vietas piemērs ir uzņēmumos, kur no dažādiem avotiem ieplūst daudz dinamisku datu, un tie ir ātri jāpadara pieejami reālajā laikā.
Laika sēriju lietojumprogrammas ar atšķirīgiem piekļuves modeļiem - Kudu ir lieliski piemērots lietojumprogrammām, kas balstītas uz laika sērijām, jo tabulas ir vieglāk iestatīt un skenēt, izmantojot to. Šādas izmantošanas piemērs ir universālveikalos, kur ātri jāatrod un jāapstrādā vecie dati, lai prognozētu produktu popularitāti nākotnē.
Mantotās sistēmas - Daudzi uzņēmumi, kas iegūst datus no dažādiem avotiem un glabā tos dažādās darbstacijās, jutīsies kā mājās ar Kudu. Kudu ir ārkārtīgi ātrs un var efektīvi integrēties ar Impala, lai apstrādātu datus par visām mašīnām.
Prognozējamā modelēšana - datu zinātnieki, kuri vēlas labu platformu modelēšanai, var izmantot Kudu. Kudu var mācīties no katra tajā iekļautā datu kopas. Zinātnieks var atkārtoti palaist un atkārtoti palaist modeli, lai redzētu, kas notiek.

Secinājums

Kaut arī Kudu joprojām ir izstrādes stadijā, tam ir pietiekami daudz potenciāla, lai tas būtu labs pievienojums standarta Hadoop komponentiem, piemēram, HDFS un HBase. Tam ir pietiekami daudz iespēju, lai pilnībā mainītu Hadoop ekosistēmu, aizpildot visas nepilnības un pievienojot vēl dažas funkcijas. Tas ir arī ļoti ātrs un jaudīgs, un tas var palīdzēt ātri analizēt un saglabāt lielas datu tabulas. Tomēr, lai to efektīvāk izmantotu, vēl ir jāpaveic daži darbi.