Kad SQL nepietiek: jauno lielo datu centru vadības ierīces

Video: The REAL Reason I Quit My 6-Figure Data Analyst Job

Saturs

Google failu sistēma: liels gadījumu izpēte
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Core Technology apskats
Kā to panāk citas lielās sistēmas?
Uzturēt DFS

Izņemšana:

Izstrādātājiem un inženieriem ir nepārtraukti jāstrādā, lai paātrinātu un uzlabotu pakalpojumus platformās, kuras ir tālu pārsniegušas savus klasiskos 1990. gadu arhetipus.

Neskatoties uz milzīgajiem NSA datu centriem, kas glabā gazillionus datu bitu par mūsu privāto dzīvi, ir viena lieta, par kuru daudz nav runāts, vismaz CNN. Tas ietver inženierijas problēmu, kas ir parādījusies kopā ar mākoņu tehnoloģiju, lielajiem datiem un iespaidīgajiem fizisko datu glabāšanas centriem, kas tagad tiek veidoti visā pasaulē. Kas tas ir? Neatkarīgi no tā, kurš administrē kādu no mammātiskajām IT sistēmām, kuras vada šīs iespējas, ir vajadzīgas programmatūras sistēmas, kas palīdz visiem šiem datiem ātri nokļūt un izkļūt no cauruļvada. Šī vajadzība ir viens no visinteresantākajiem IT jautājumiem vai mīklām, ar kurām šodien saskaras profesionāļi.

Kā uzsver daudzi eksperti, mūsdienu ārkārtīgi lielais datu apstrādes pieprasījums pārsniedz tradicionālās pieejas. Vienkārši sakot, izmantojot vienkāršas datu bāzes struktūras un rīkus, piemēram, SQL vaicājumu interfeisu, netiks nodrošināta pietiekama apstrādes jauda vai funkcionalitāte, piemēram, patentētajām sistēmām, kuras ir attīstījušās dažu pēdējo gadu laikā. Mūsdienu lielo tehnoloģiju uzņēmumu arhīviem ir nepieciešama īpaši pielāgojama tehnoloģija. Viņiem nepieciešami datu apstrādes rīki, kas var ievadīt un izvadīt daudz lielāku apjomu nekā tas, ko var atvieglot viens serveris. Viņiem nepieciešami risinājumi, kurus var ātri palielināt izaugsmei, risinājumi, kas ietver sarežģītus mākslīgā intelekta līmeņus, risinājumi, kas ir izstrādāti, lai tos viegli pārvaldītu IT departaments.

Jautājums ir, kā uzņēmumi un valdības aģentūras iekaro tradicionālā datu apstrādes ceļa ierobežojumus? Šeit arī apskatiet vienu ļoti daudzsološu iespēju: programmatūra, kas apstrādā lielos datus, un vairāku datu centru administrēšana.

Google failu sistēma: liels gadījumu izpēte

Patentētā tehnoloģija, kuru Google izmanto, lai piekļūtu saviem datu centriem, ir viens no labākajiem parastiem paraugiem lielu datu apstrādes un vairāku datu centru administrēšanas modeļiem. Google failu sistēma (GFS), kas izstrādāta 2003. gadā, ir izstrādāta, lai atbalstītu milzīgu daudzumu ātrgaitas datu sistēmu grozījumus, kas ir daļa no daudz jaunas informācijas iegūšanas vienā platformā un no tās, jo miljoniem lietotāju noklikšķina uz tajā pašā laikā. Eksperti to dēvē par sadalītu failu sistēmu, un, lai aprakstītu šīs ļoti sarežģītās metodes, izmanto terminu "datu objektu glabāšana". Tomēr patiesībā šie termini pat nesaskrāpē virsmu, aprakstot, kas darbojas.

Atsevišķi funkcijas un komponenti, kas veido tādu sistēmu kā GFS, var vairs nebūt novatoriski, taču tie ir sarežģīti. Daudzi no tiem šajā vietnē ir apskatīti kā salīdzinoši jauni jauninājumi, kas ir pamats jaunai, vienmēr ieslēgtai, vienmēr savienotai globālai IT sistēmai. Kopumā tāda sistēma kā GFS ir daudz vairāk nekā tās daļu summa: tas ir lielākoties neredzams, bet ārkārtīgi sarežģīts tīkls, kas sastāv no atsevišķu datu vienību izmešanas šādā veidā un kas ir process, kas, ja tas būtu vizuāli pilnībā modelēts, izskatās haoss. Izpratne par to, kur notiek visi dati, prasa daudz enerģijas un apņēmības, jo tie, kas pārzina šo sistēmu kaujas stacijas, to viegli atzīs.

"Ir pārāk daudz detaļu, kas dziļi ietekmē lietojamības jomas, ieskaitot ārēju un iekšēju sadrumstalotību, atjauninājumus uz žurnāldatoriem un atjauninājumiem uz vietas un darījumu konsekvences līmeņus - lai apkopotu tā darbību vienā kodolīgā teikumā. , "saka Momchil Michailov, Sanbolic izpilddirektors un līdzdibinātājs.

"Izkliedētā failu sistēma ir vai nu sadalīts vietējo vārdu telpu un iesaistīto mezglu brīvo vietu apkopotājs, vai arī vietēja failu sistēma, kas darbojas uz vairākiem mezgliem, kuri piekļūst kopīgajai krātuvei ar sadalīta bloķēšanas pārvaldnieka komponenta palīdzību," viņš sacīja.

Kerija Lebela ir vecākā produktu menedžere Automic - uzņēmumā, kas pazīstams ar pielāgojamām automatizācijas platformām. Lēbelis saka, ka, lai gan ir precīzi raksturot DFS kā sistēmu, kas vienkārši piešķir darba slodzi serveriem, kas piestiprināti pie lētām aparatūras vienībām, tas patiesībā nemaz neizsaka visu stāstu.

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

"Tas, kas jums galu galā pietrūkst, ir viss, kas ir foršs kā viņi dara to, ko viņi dara, "sacīja Lebelis.

Atkāpjoties no tehniskajām detaļām un domājot tikai par izkliedētās failu sistēmas pamatideju, ir redzams “foršais faktors”, par kuru runā Lībelis. Šīs lielās datu apstrādes sistēmas aizvieto vecās failu / mapju sistēmas ar struktūrām, kurās ir iesaistītas ne tikai vairākas piegādes sistēmas, bet arī "uz objektu orientēta" pieeja, kur šeit un tur tiek izbīdīts ļoti daudz vienību, lai novērstu sastrēgumus.

Iedomājieties, piemēram, par mūsdienīgu šoseju sistēmu, kur simtiem tūkstošu automašīnu nevis vienkārši tiek novirzīti pa daudzlīmeņu ceļu, bet arī iegremdēti glītās mazās āboliņa lapās vai vērša pietekās, kuras tiek savērptas apkārt un nosūtītas. uz dažādiem galamērķiem. No debesīm viss izskatās tikpat horeogrāfiski kā Šveices pulkstenis. Tas ir tāds vizuālais modelis, kādu inženieri aplūko, kad viņi sapņo par jauniem veidiem, kā novirzīt informāciju ap ierobežojumiem, "palaižot" to dažādos daudzpakāpju datu ierobežošanas shēmas līmeņos. Atstājot malā specifikāciju, tas ir apstrādes sistēmas augstākā līmeņa mērķis: turēt šos autonomos objektus ar iegultajiem metadatiem visaugstākajā ātrumā tur, kur tiem jāatrodas, sasniegt konsekvences mērķus, apmierināt galalietotāju vai pat lai informētu par augstākā līmeņa novērojumu vai analīzi.

Core Technology apskats

Sean Gallagher raksts, kas parādījās vietnē Ars Technica, sadala GFS dizainu nedaudz vieglāk pārvaldāmās daļās un sniedz norādes par to, kas atrodas zem lapas Google.

GFS sākas ar lieku un kļūmēm izturīgu modeli, ko izmanto datu lasīšanai un rakstīšanai. Ideja ir tāda, ka tā vietā, lai rakstītu konkrētu atjauninājumu vienam diskam, jaunās sistēmas raksta datu fragmentus vairākiem adresātiem. Tādā veidā, ja viens rakstīt neizdosies, citi paliks. Lai to pielāgotu, viens primārais tīkla komponents nodrošina datu apstrādi citām padotības vienībām, atkārtoti apkopojot datus, kad klients to prasa. To visu padara iespējamu metadatu protokols, kas palīdz noteikt, kur lielākā sistēmā ir noteikti atjauninājumi un pārsūtīšanas rezultāti.

Vēl viens ļoti svarīgs aspekts ir tas, kā šīs dublētās sistēmas nodrošina datu konsekvenci. Kā atzīmē Gallaghers, GFS dizains upurē zināmu konsekvenci, vienlaikus "izpildot atomu" vai aizsargājot principu, kā dati tiek atjaunināti vairākās glabāšanas vienībās, lai laika gaitā tos saskaņotu. Liekas, ka Google “atvieglinātas konsekvences modelis” seko pamata modeļa BASE teorijai, kas nodrošina lielāku elastību pret ilgāku laika periodu konsekvences ieviešanai.

Kā to panāk citas lielās sistēmas?

"Kad tiek sasniegts pietiekami liels mērogs, datu neatbilstības vai bojājumi kļūst neizbēgami," saka Mihailovs. "Tāpēc izplatīto failu sistēmu galvenajam mērķim vajadzētu būt spējai korupcijas gadījumā veikt pēc iespējas vairāk operāciju, vienlaikus nodrošinot efektīvas metodes korupcijas novēršanai vienlaikus." Mihailovs arī piemin nepieciešamību saglabāt sniegumu, uzmanīgi īstenojot atlaišanu.

"Piemēram, metadatu (datu par datiem) izveidošana katrā diskā ļauj šim diskam atjaunot pareizo datu struktūru, ja tā spoguļkopija ir bojāta," sacīja Mihailovs. "Turklāt RAID līmeņus var izmantot, lai apkarotu krātuves neveiksmes failu sistēmas apkopotāja vai dalītā apjoma pārvaldnieka līmenī."

Apspriežot citu konsekvences modeli, Lībelis koncentrējas uz sistēmu, ko sauc par Hadoop sadalīto failu sistēmu (HDFS), kuru viņš sauc par “nozares de facto standartu”.

HDFS, saka Lībels, katrs datu bloks tiek atkārtots trīs reizes uz dažādiem mezgliem un diviem dažādiem statīviem. Dati tiek pārbaudīti no vienas puses uz otru. Par kļūmēm tiek ziņots NameNode - datu apstrādātājam, kurš atbrīvojas no bojātiem blokiem un izveido jaunus.

Tas viss atbalsta "tīru datu" veidus, kas ir tik svarīgi vienas no šo masveida datu sistēmu integritātei.

Uzturēt DFS

Vēl viens ļoti atšķirīgs GFS apskats nāk no vadu rakstnieka Stīvena Levija 2012. gada oktobra raksta. Tas ir daudz vienkāršāk, raksturojot programmatūras pieeju Google kolektīvai augšupējai tīkla pārvaldībai.

"Gadu gaitā," raksta Levy, "Google ir arī izveidojis programmatūras sistēmu, kas ļauj tai pārvaldīt savus neskaitāmos serverus tā, it kā tie būtu viena milzu vienība. Tā iekšējie izstrādātāji var rīkoties kā leļļu meistari, nosūtot tūkstošiem datoru, lai veiktu veic tikpat viegli kā vienas mašīnas vadīšana. "

Šādi rīkojoties, jāveic arī daudz kibernoziegumu un vides uzturēšanas, sākot no specializētām testa komandām, kuras cenšas "salauzt" serveru sistēmas, līdz rūpīgi kontrolētai temperatūrai datu kriptoņu zālēs.

Levy arī piemin GFS papildu tehnoloģijas, piemēram, MapReduce, mākoņu lietojumprogrammu rīku, un Hadoop - analītikas motoru, kas dalās ar dažiem GFS projektēšanas principiem. Šiem rīkiem ir sava ietekme uz to, kā tiek izveidotas lielas datu centru apstrādes sistēmas un kas varētu rasties nākotnē. (Uzziniet vairāk par šīm tehnoloģijām sadaļā Big Data Evolution.)

Mihailovs uzskata, ka MapReduce ir potenciāls atbalstīt arvien lielākas datu centru sistēmas, un runā par dalītu un apkopotu failu sistēmu "vienotu ieviešanu", kas varētu "saglabāt apkopotas failu sistēmas nosaukuma mezglus koplietotā klasterī ar SSD uzglabāšanai . "

No savas puses Lībels redz pāreju no pakešu apstrādes (Hadoop atbalstītā metode) uz straumēšanu, kas šīs datu operācijas pietuvinās reālajam laikam.

"Jo ātrāk mēs varēsim apstrādāt datus un padarīt tos pieejamus biznesa lēmumu pieņēmējiem vai klientiem, jo vairāk būs konkurences priekšrocību," saka Lēbelis, kurš arī ierosina aizstāt iepriekšminēto apstrādes terminoloģiju ar terminiem, kas koncentrējas uz galalietotājs. Domājot par "sinhronām" darbībām vai darbībām, kas sinhronizētas ar tiešā lietotāja darbībām, un "asinhronām" darbībām, kuru ieviešana ir elastīgāka, Lēbels saka, ka uzņēmumi var izmantot SLA un citus resursus, lai definētu, kā konkrētā pakalpojumu sistēma darbosies. .

Tas zināmā mērā izriet no tā, ka izstrādātājiem un inženieriem ir nepārtraukti jāstrādā, lai paātrinātu un uzlabotu pakalpojumus platformās, kuras ir tālu pārsniegušas viņu klasiskos, 1990. gadu laikmeta arhetipus. Tas nozīmē kritiski aplūkot datu aprites mehānismu un pārvarēt vājās vietas tādā veidā, kas atbalsta ne tikai pieaugošo iedzīvotāju skaitu, bet arī eksponenciālās izmaiņas, kas notiek ar pārtraukumu kakla ātrumā un kuras pundīti sauc par "nākamo rūpniecības revolūciju". Iespējams, ka tie, kas šajās frontēs izrāda vislielāko labumu, galu galā dominēs nākotnes tirgos un ekonomikā.