Kāpēc Spark ir nākotnes lielo datu platforma

Video: Big Data In 5 Minutes | What Is Big Data?| Introduction To Big Data |Big Data Explained |Simplilearn

Saturs

Kas ir Apache Spark?
Kāpēc dzirksteles ir tik svarīgas Hadoop?
Kas ir Sparks unikālās iezīmes?
Kāpēc dzirkstele nav Hadoop aizstājējs
Ko kompānijas domā par Spark un Hadoop
Praktiskās ieviešanas
Secinājums

Avots: Snake3d / Dreamstime.com

Izņemšana:

Apache Spark ir atvērtā koda rīks lielu datu apstrādei, kas Ložņā uz Hadoop (un dažos veidos pat pārspēj).

Apache Hadoop jau ilgu laiku ir lielo datu lietojumprogrammu pamats, un to uzskata par pamata datu platformu visiem ar lielajiem datiem saistītajiem piedāvājumiem. Tomēr atmiņā esošā datu bāze un aprēķini kļūst arvien populārāki ātrākas veiktspējas un ātru rezultātu dēļ. Apache Spark ir jauna sistēma, kas izmanto atmiņas iespējas, lai nodrošinātu ātru apstrādi (gandrīz 100 reizes ātrāk nekā Hadoop). Tātad, Spark produkts arvien vairāk tiek izmantots lielu datu pasaulē, galvenokārt ātrākam apstrādes procesam.

Kas ir Apache Spark?

Apache Spark ir atvērtā pirmkoda sistēma milzīga apjoma datu (lielu datu) apstrādei ar ātrumu un vienkāršību. Tas ir piemērots analītikas lietojumprogrammām, kuru pamatā ir lieli dati. Dzirksteli var izmantot Hadoop vidē, savrupā veidā vai mākonī. Tas tika izstrādāts Kalifornijas universitātē un vēlāk tika piedāvāts Apache programmatūras fondam. Tādējādi tas pieder atvērtā koda kopienai un var būt ļoti rentabls, kas turklāt ļauj amatieru izstrādātājiem strādāt viegli. (Lai uzzinātu vairāk par Hadoops atvērto avotu, skatiet sadaļu Kā atvērtā avota ietekme uz Apache Hadoop ekosistēmu?)

Galvenais Spark mērķis ir tāds, ka tā izstrādātājiem piedāvā lietojumprogrammu sistēmu, kas darbojas ap centrētu datu struktūru. Dzirkstele ir arī ārkārtīgi spēcīga, un tai piemīt iedzimta spēja īsā laika posmā ātri apstrādāt milzīgus datu apjomus, tādējādi piedāvājot īpaši labu sniegumu.Tas padara to daudz ātrāku nekā tas, kas tiek uzskatīts par tā tuvāko konkurentu Hadoopu.

Kāpēc dzirksteles ir tik svarīgas Hadoop?

Apache Spark vienmēr ir bijis zināms, ka Hadoop pārspēj vairākas funkcijas, kas, iespējams, izskaidro, kāpēc tā joprojām ir tik svarīga. Viens no galvenajiem iemesliem būtu apsvērt apstrādes ātrumu. Faktiski, kā jau minēts iepriekš, Spark piedāvā aptuveni 100 reizes ātrāku apstrādi nekā Hadoop MapReduce par tādu pašu datu daudzumu. Tas arī izmanto ievērojami mazāk resursu, salīdzinot ar Hadoop, tādējādi padarot to rentablu.

Vēl viens svarīgs aspekts, kurā Sparkam ir galvenā loma, ir saderība ar resursu pārvaldnieku. Ir zināms, ka Apache Spark darbojas ar Hadoop, tāpat kā MapReduce, tomēr pēdējais pašlaik ir saderīgs tikai ar Hadoop. Tomēr attiecībā uz Apache Spark tas var strādāt ar citiem resursu pārvaldniekiem, piemēram, YARN vai Mesos. Datu zinātnieki to bieži min kā vienu no lielākajām jomām, kur Spark patiešām pārspēj Hadoop.

Runājot par lietošanas ērtumu, Spark atkal notiek daudz labāk nekā Hadoop. Spark ir API vairākām valodām, piemēram, Scala, Java un Python, turklāt tām ir Spark SQL patīk. Lietotāja definētu funkciju rakstīšana ir samērā vienkārša. Gadās arī lepoties ar interaktīvu komandu palaišanas režīmu. No otras puses, Hadoop ir rakstīts Java valodā un ir nopelnījis reputāciju, ka to ir diezgan grūti programmēt, lai gan tam ir rīki, kas palīdz šajā procesā. (Lai uzzinātu vairāk par Spark, skatiet sadaļu Kā Apache Spark palīdz ātrai lietojumprogrammu izstrādei.)

Kas ir Sparks unikālās iezīmes?

Apache Spark ir dažas unikālas funkcijas, kas to patiesi atšķir no daudziem konkurentiem datu apstrādes biznesā. Daži no tiem ir īsi aprakstīti zemāk.

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Dzirkstelei piemīt arī iedzimta spēja ielādēt nepieciešamo informāciju kodolā, izmantojot tās mašīnmācīšanās algoritmus. Tas ļauj tam būt ārkārtīgi ātram.

Apache Spark nāk ar iespēju apstrādāt grafikus vai pat grafiska rakstura informāciju, tādējādi ļaujot to viegli analizēt ar lielu precizitāti.

Apache Spark ir MLib, kas ir struktūra, kas paredzēta strukturētai mašīnu apguvei. Tas ir arī galvenokārt ātrāk īstenojams nekā Hadoop. MLib arī spēj atrisināt vairākas problēmas, piemēram, statistisko nolasīšanu, datu paraugu ņemšanu un telpu pārbaudi, lai nosauktu dažas.

Kāpēc dzirkstele nav Hadoop aizstājējs

Neskatoties uz to, ka Spark ir vairāki aspekti, kad tā atmet Hadoop rokas uz leju, joprojām ir vairāki iemesli, kāpēc tā pagaidām īsti nevar aizstāt Hadoop.

Pirmkārt, Hadoop vienkārši piedāvā lielāku rīku komplektu, salīdzinot ar Spark. Tam ir arī vairākas nozarē atzītas prakses. Apache Spark šajā jomā joprojām ir salīdzinoši jauns un būs vajadzīgs zināms laiks, lai sasniegtu līdzvērtīgu cenu Hadoop.

Hadoop MapReduce ir iestatījis arī noteiktus nozares standartus, kad darbojas pilnvērtīgas darbības. No otras puses, joprojām tiek uzskatīts, ka Spark nav pilnībā gatavs darbam ar pilnīgu uzticamību. Bieži vien organizācijām, kuras izmanto Spark, tā ir precīzi jānoregulē, lai tā būtu gatava savām prasībām.

Hadoop MapReduce, kas darbojas jau ilgāku laiku nekā Spark, ir arī vieglāk konfigurējams. Tomēr tas neattiecas uz Spark, ņemot vērā, ka tā piedāvā pilnīgi jaunu platformu, kas patiesībā nav pārbaudījusi aptuvenus ielāpus.

Ko kompānijas domā par Spark un Hadoop

Daudzi uzņēmumi jau ir sākuši izmantot Spark savām datu apstrādes vajadzībām, taču ar to sižets nebeidzas. Tam, protams, ir vairāki spēcīgi aspekti, kas padara to par pārsteidzošu datu apstrādes platformu. Tomēr tas nāk arī ar taisnīgu trūkumu daļu, kas jānovērš.

Rūpniecības priekšstats ir tāds, ka Apache Spark ir šeit, lai paliktu, un pat, iespējams, nākotnē būs datu apstrādes vajadzībām. Tomēr tas joprojām ir jāpaveic daudz izstrādes un pulēšanas darbu, kas ļaus tam patiesi izmantot savu potenciālu.

Praktiskās ieviešanas

Apache Spark ir bijis un joprojām tiek izmantots daudzos uzņēmumos, kas atbilst viņu datu apstrādes prasībām. Vienu no veiksmīgākajām ieviešanām veica Shopify, kas meklēja piemērotus veikalus biznesa sadarbībai. Tomēr tā datu noliktava aizkavēja laiku, kad tā vēlējās saprast produktus, kurus pārdod viņu klienti. Ar Spark palīdzību uzņēmums spēja apstrādāt vairākus miljonus datu ierakstu un pēc tam dažās minūtēs apstrādāt 67 miljonus ierakstu. Tas arī noteica, kuri veikali bija tiesīgi saņemt atbalstu.

Izmantojot Spark, Pinterest spēj noteikt attīstības tendences un pēc tam to izmanto, lai izprastu lietotāju uzvedību. Tas vēl vairāk ļauj panākt labāku vērtību Pinterest sabiedrībā. Spark izmanto arī TripAdvisor, kas ir viena no lielākajām ceļojumu informācijas vietnēm pasaulē, lai paātrinātu savu ieteikumu sniegšanu apmeklētājiem.

Secinājums

Nevar apšaubīt Apache Spark veiklību, pat šobrīd, un unikālo funkciju kopumu, ko tas sniedz uz galda. Tā apstrādes jauda un ātrums, kā arī savietojamība nosaka signālu vairākām nākotnes lietām. Tomēr tai ir arī vairākas jomas, kas jāuzlabo, lai patiesi izmantotu visu potenciālu. Kamēr Hadoop joprojām regulē uzcenojumu, šobrīd Apache Spark ir gaiša nākotne, un daudzi to uzskata par nākotnes platformu datu apstrādes prasībām.