10 vissvarīgākie Hadoop termini, kas jums jāzina un jāsaprot

Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Saturs

Bet vispirms apskatiet, kā darbojas Hadoop
Hadoop bieži
Hadoop izplatītā failu sistēma (HDFS)
MapReduce
HBase
Stropu
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Apache cūka
Apache dzirkstele
Apache Cassandra
Vēl viens sarunu vedējs par resursiem (YARN)
Impala

Avots: Trueffelpix / Dreamstime.com

Izņemšana:

Lai tiešām saprastu lielos datus, jums mazliet jāsaprot par Hadoop un valodu ap to.

Liela apjoma datus, kas ir āķīgs nosaukums apjomīgiem strukturētu, nestrukturētu vai daļēji strukturētu datu apjomiem, ir ļoti grūti uztvert, uzglabāt, pārvaldīt, koplietot, analizēt un vizualizēt, vismaz izmantojot tradicionālās datu bāzes un programmatūras lietojumprogrammas. Tieši tāpēc lielajām datu tehnoloģijām ir potenciāls efektīvi un lietderīgi pārvaldīt un apstrādāt apjomīgus datu apjomus. Un tā Apache Hadoop, kas nodrošina sistēmu un ar to saistītās tehnoloģijas lielu datu kopu apstrādei datoru kopās sadalītā veidā. Tātad, lai patiešām saprastu lielos datus, jums mazliet jāsaprot par Hadoop. Šeit arī apskatiet augstākos terminus, kurus dzirdēsit attiecībā uz Hadoopu - un to nozīmi.

Bet vispirms apskatiet, kā darbojas Hadoop

Pirms iedziļināties Hadoop ekosistēmā, jums skaidri jāsaprot divas pamata lietas. Pirmais ir tas, kā fails tiek glabāts Hadoop; otrais ir tas, kā tiek apstrādāti saglabātie dati. Visas ar Hadoop saistītās tehnoloģijas galvenokārt darbojas šajās divās jomās un padara tās lietotājam draudzīgākas. (Iegūstiet Hadoop darbības pamatus sadaļā Hadoop palīdz atrisināt lielo datu problēmu.)

Tagad par noteikumiem.

Hadoop bieži

Hadoop ietvarā ir dažādi moduļi dažādām funkcijām, un šie moduļi dažādu iemeslu dēļ var mijiedarboties savā starpā. Hadoop Common var definēt kā kopēju utilītu bibliotēku, lai atbalstītu šos moduļus Hadoop ekosistēmā. Šīs utilītas pamatā ir uz Java balstīti, arhivēti (JAR) faili. Šīs utilītas izstrādātāji galvenokārt izmanto programmētāji un izstrādātāji.

Hadoop izplatītā failu sistēma (HDFS)

Hadoop izplatītā failu sistēma (HDFS) ir Apache Hadoop apakšprojekts Apache Software Foundation ietvaros. Tas ir glabāšanas pamats Hadoop ietvarā. Tā ir izplatīta, mērogojama un kļūmēm izturīga failu sistēma, kas atrodas vairākās preču aparatūrās, kas pazīstamas kā Hadoop klasteris. HDFS mērķis ir droši uzglabāt milzīgu datu apjomu ar lielu caurlaides spēju piekļuvi lietojumprogrammu datiem. HDFS seko galvenajai / pakārtotajai arhitektūrai, kur galvenais ir pazīstams kā NameNode un pakārtotie ir zināmi kā DataNodes.

MapReduce

Hadoop MapReduce ir arī Apache programmatūras fonda apakšprojekts. MapReduce faktiski ir programmatūras ietvars, kas rakstīts tikai Java valodā. Tās galvenais mērķis ir pilnīgi paralēli apstrādāt lielas datu kopas izplatītā vidē (kas sastāv no preču aparatūras). Ietvars pārvalda visas darbības, piemēram, darba plānošanu, uzraudzību, izpildi un atkārtotu izpildi (neveiksmīgu uzdevumu gadījumā).

HBase

Apache HBase ir pazīstama kā Hadoop datu bāze. Tas ir kolonnu, izplatīts un pielāgojams lielo datu krātuve. Tas ir arī pazīstams kā NoSQL datu bāzes tips, kas nav relāciju datu bāzes pārvaldības sistēma. HBase lietojumprogrammas ir rakstītas arī Java, veidotas virs Hadoop un darbojas HDFS. HBase tiek izmantota, kad jums nepieciešama reāllaika lasīšana / rakstīšana un izlases piekļuve lieliem datiem. HBase ir veidots, pamatojoties uz Googles BigTable koncepcijām.

Stropu

Apache Hive ir atvērtā koda datu noliktavas programmatūras sistēma. Hive sākotnēji izstrādāja, pirms tas nonāca Apache Software Foundation pakļautībā un kļuva par atvērto avotu. Tas atvieglo lielu datu kopu pārvaldību un vaicājumus izkliedētā Hadoop saderīgā krātuvē. Hive veic visas savas darbības, izmantojot SQL līdzīgu valodu, kas pazīstama kā HiveQL. (Uzziniet vairāk sadaļā Īss ievads Apache Hive and Pig.)

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, ja nevienam nerūp programmatūras kvalitāte.

Apache cūka

Cūku sākotnēji ierosināja Yahoo, lai izstrādātu un izpildītu MapReduce darbus lielā apjomā izplatīto datu. Tagad tas ir kļuvis par atvērtā koda projektu Apache Software Foundation pakļautībā. Apache Pig var definēt kā platformu ļoti lielu datu kopu efektīvai analīzei. Cūku infrastruktūras slānis rada MapReduce darbu secības faktiskās apstrādes veikšanai. Cūku valodas slānis ir pazīstams kā Pig Latin, un tas nodrošina SQL līdzīgas funkcijas, lai veiktu vaicājumus sadalītajās datu kopās.

Apache dzirkstele

Spark sākotnēji izstrādāja AMPLab UC Berkeley. Tas kļuva par Apache augstākā līmeņa projektu 2014. gada februārī. Apache Spark var definēt kā atvērtā pirmkoda, vispārēja lietojuma, klasteru skaitļošanas sistēmu, kas datu analīzi padara daudz ātrāku. Tas ir izveidots uz Hadoop izplatītās failu sistēmas, bet tas nav saistīts ar MapReduce sistēmu. Sparks veiktspēja ir daudz ātrāka, salīdzinot ar MapReduce. Tas nodrošina augsta līmeņa API saskarnēs Scala, Python un Java.

Apache Cassandra

Apache Cassandra ir vēl viena atvērtā koda NoSQL datu bāze. Kasandra tiek plaši izmantota, lai pārvaldītu liela apjoma strukturētu, daļēji strukturētu un nestrukturētu datu laidumus vairākos datu centros un mākoņu krātuvē. Cassandra ir izstrādāts, pamatojoties uz "masterless" arhitektūru, kas nozīmē, ka tā neatbalsta galveno / pakārtoto modeli. Šajā arhitektūrā visi mezgli ir vienādi, un dati tiek sadalīti automātiski un vienādi visiem mezgliem. Kasandru svarīgākās funkcijas ir nepārtraukta pieejamība, lineārā mērogojamība, iebūvēta / pielāgojama replikācija, nav viena kļūmes punkta un darbības vienkāršība.

Vēl viens sarunu vedējs par resursiem (YARN)

Vēl viens sarunu vedējs par resursiem (YARN) ir pazīstams arī kā MapReduce 2.0, taču tas faktiski ietilpst Hadoop 2.0. YARN var definēt kā darba plānošanu un resursu pārvaldības sistēmu. YARN pamatideja ir aizstāt JobTracker funkcijas ar diviem atsevišķiem demoniem, kas atbild par resursu pārvaldību un plānošanu / uzraudzību. Šajā jaunajā ietvarā būs globāls ResourceManager (RM) un lietojumprogrammu meistars, kas pazīstams kā ApplicationMaster (AM). Globālais ResourceManager (RM) un NodeManager (uz katra mezgla vergu) veido faktisko datu aprēķināšanas ietvaru. Esošās MapReduce v1 lietojumprogrammas var palaist arī YARN, taču šīs lietojumprogrammas jāpārveido ar Hadoop2.x burkām.

Impala

Impala var definēt kā SQL vaicājumu motoru ar milzīgu paralēlās apstrādes (MPP) jaudu. Tas darbojas sākotnēji uz Apache Hadoop ietvaru. Impala ir veidota kā Hadoop ekosistēmas sastāvdaļa. Tam ir tāda pati elastīgā failu sistēma (HDFS), metadati, resursu pārvaldība un drošības ietvari, ko izmanto citi Hadoop ekosistēmas komponenti. Vissvarīgākais ir atzīmēt, ka Impala ir daudz ātrāks vaicājumu apstrādē, salīdzinot ar Hive. Bet mums arī jāatceras, ka Impala ir paredzēta nelielu datu kopu vaicājumiem / analīzei un galvenokārt ir paredzēta kā analītikas rīks, kas darbojas ar apstrādātiem un strukturētiem datiem.

Hadoop ir svarīga tēma IT jomā, taču ir arī tādi, kas skeptiski vērtē tā ilgtermiņa dzīvotspēju. Lasīt vairāk sadaļā Kas ir Hadoop? Kinoloģijas teorija.