Kāpēc Hadoop ir perfekta spēle genoma secībai

Video: What is epigenetics? - Carlos Guerrero-Bosagna

Saturs

Genomikas tagadne un nākotne
Genoma kartēšanas nozares vajadzības
Kas tiek gaidīts risinājumā?
Kāpēc Hadoop ir labākais risinājums genoma secēšanai
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Ko vēl Hadoop var darīt?
Hadoop iespējas
Crossbow: nākamās paaudzes datu pārvaldības platforma
Cita uz Hadoop balstīta genomikas programmatūra
Secinājums

Avots: A3701027 / Dreamstime.com

Izņemšana:

Genoma secībai ir nepieciešami jaudīgi tehnoloģiju rīki, lai apstrādātu visus savus datus, un Hadoop ir atbildīgs par šo uzdevumu.

Klīniskā genomika ir aizraujoša tēma, kurā cilvēki strādā pie modernākajām tehnoloģijām, lai apstrādātu ātrus un precīzus rezultātus. Tirgū ir pieejams ļoti daudz genoma sekvenču, un tie ražo secības datu petabātus, un sekvencēšanas pieaugums tuvākajā nākotnē radīs datu eksabītus. Šeit Hadoop ir ideāla platforma sarežģītas genomikas darba plūsmas apstrādei. Hadoop var glabāt un kārtot milzīgus informācijas apjomus, kā arī var sniegt jēgpilnu analīzi. (Lai iegūtu priekšstatu par to, cik daudz datu tas patiesībā prasa, izlasiet Izpratne par bitiem, baitiem un to reizinātājiem.)

Genomikas tagadne un nākotne

Mūsdienās genoma kartēšana ir sasniegusi attīstības virsotni. Daudzi cilvēki, kas saistīti ar genomikas nozari, pārrauj zinātkāri, un, tā kā parādās jaunas iespējas, stundu nepieciešama labākas tehnoloģijas. Genoma secība ir ļoti atkārtots un resursietilpīgs uzdevums. Tikai 2013. gadā tika izveidoti apmēram 15 datu petabāti un tikai 2000 sekvenci. Šajā žokļa nomestā daudzumā bija iekļauti 300 KB secīgi dati par cilvēka genomu. Pēc šāda datu iegūšanas ātruma var aprēķināt, ka līdz 2018. gadam tiks izveidots aptuveni viens datu eksabāts. Tas būs saistīts ar sekvenču pieaugumu, kas vienā piegājienā radīs arvien vairāk datu. Vēl viens iemesls ir ārkārtīgi jaudīgu un lētu genomu sekvencēšanas mašīnu parādīšanās. Kopš 2008. gada šo mašīnu cena ir pastāvīgi samazinājusies. Tas notiek spēcīgu nākamās paaudzes mašīnu dēļ, kas ir parādījušās tirgū.

Genoma kartēšanas nozares vajadzības

Lai apstrādātu datus, kas savākti no cilvēka genoma, tiek izmantoti sarežģīti algoritmi. Pēc tam šī informācija ir jāsaglabā. Nākotnē to var pārskatīt, lai salīdzinātu ar sākotnējiem datiem. 100 GB datu apstrādes un saglabāšanas uzdevums nav pārāk grūts, it īpaši, ja to darāt ar jaudīgām mašīnām, kuras tiek izmantotas sekvences centros. Pētījumi rāda, ka šo datu daudzumu var apstrādāt tikai aptuveni 1000 CPU stundās, tāpēc tas ir ļoti viegli. Ar šo tehniskās attīstības tempu ir acīmredzams, ka genoma industrija drīz vien dažās sekundēs pārstrādās tūkstošiem gigabaitu.

Tomēr datu pārvaldības un glabāšanas paņēmieni neattīstās tik ātri, tāpēc var sagaidīt lielu dārgo datu zudumu. Tas tiešām nav vēlams, jo tas nopietni kavēs progresu, kas panākts cilvēku genomikā. Tātad ir ļoti nepieciešama efektīva datu pārvaldības tehnika, kuru var viegli atjaunināt. Tas var būt efektīvs īpaši tuvākajā nākotnē, kad genoma kartēšana no lielām laboratorijām ar jaudīgiem datoriem pārcelsies uz mazām slimnīcām un laboratorijām.

Kas tiek gaidīts risinājumā?

Jaunu genomu secības paņēmienu atklāšanas un attīstības temps ir ārkārtīgi augsts. Šis temps var būt ļoti labvēlīgs medicīnas zinātnei kā spēcīgs solis galveno slimību izskaušanā. Tomēr arī šis temps var būt ļoti izaicinošs.

Izaicinājums rodas, pārvaldot lielu datu daudzumu, ko iegūst secības projekti. Tātad ir nepieciešams efektīvs risinājums, kas palīdzēs lielo datu glabāšanā un apstrādē. Šim risinājumam jābūt lētam un ātram, vienlaikus nodrošinot pielāgošanos. Arī šī risinājuma sniegtajai analīzei jābūt precīzai un pastāvīgai. Kāds ir problēmas risinājums? Neapšaubāmi, tas ir Hadoop. (Lai iegūtu vairāk informācijas par Hadoop izmantošanu, skatiet 5 ieskatu par lielajiem datiem (Hadoop) kā pakalpojumu.)

Kāpēc Hadoop ir labākais risinājums genoma secēšanai

Genomikas nozarei ir vajadzīgs izcilāks risinājums, kas var palīdzēt viņiem efektīvi pārvaldīt datus, apstrādāt tos un saglabāt tos turpmākai lietošanai. Šķiet, ka šis risinājums lieliski sader ar programmatūru Hadoop. Tātad Hadoop var uzskatīt par perfektu lielo datu pārvaldības programmatūru, kas var ievērojami uzlabot genomikas nozares pašreizējās datu glabāšanas metodes.

Hadoop reāllaika iespējas ļauj genoma sekveneriem vienlaikus reāllaikā analizēt un saglabāt lielu datu daudzumu. Tas arī ļauj datus turpmāk izmantot. Hadoop var pārspēt daudzas mantotās sistēmas, jo tas ir daudz ātrāks un uzticamāks par tām.

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Ko vēl Hadoop var darīt?

Sakarā ar Hadoop, genomikas un gēnu secības jomā ir atvērts liels skaits iespēju un iespēju. Hadoop piedāvā paralēlas skaitļošanas iespējas, kuru dēļ ir iespējama ātrāka secība. Izmantojot arī Hadoop funkciju MapReduce, lielu gēnu skaitu var ļoti viegli kartēt. Tādēļ secība ar Hadoop patiešām kļūs par “nākamo ģeni” un būs daudz mazāk sarežģīta.

Hadoop iespējas

Hadoop ir vairākas iespējas genoma nozarē, taču vislabākā no tām tika iegūta no Lynda Chin raksta “Izpratne par vēža genoma datiem” žurnālā Genes & Development. Šajā rakstā viņa apspriež to, kā mūsdienu genomika ir pavērusi jaunas durvis, un tas ir devis daudzus pozitīvus rezultātus, piemēram, genomiskās informācijas atklāšanu par vēzi. Sakarā ar to mēs esam tuvāk pašam vēža izārstēšanai. Tomēr tam ir jāpievērš nedaudz lielāka uzmanība un jaudīga datu pārvaldības lietojumprogramma, lai labāk spētu veikt pētījumus šajā jomā. Šī var būt labākā izdevība Hadoop, lai pierādītu savu ātrumu, jaudu un precizitāti.

Crossbow: nākamās paaudzes datu pārvaldības platforma

Crossbow, kas ir programmatūras cauruļvads, kas paredzēts genoma atkārtotas secības analīzei, ir viens no labākajiem risinājumiem. Tas bija Hadoop integrācijas rezultāts starp ātru secīgu datu izlīdzināšanas algoritmu, ko sauc par Bowtie, un jaudīgu algoritmu, kas salīdzina un pēta secīgos datus, t.i., genotipu ar nosaukumu SoapSNP. Tas ir veidots uz Apache Hadoop un ir balstīts uz MapReduce ietvara ieviešanu. Crossbow ir pārnēsājams, pielāgojams un ir piemērots arī kā mākoņdatošanas rīks.

Izmantojot šo jaudīgo integrāciju, pilnīgu genomu var pārbaudīt vienas dienas laikā vietējā klasterī, kurā ir 10 mezgli. Ar 40 mezglu klasteru process ir vēl ātrāks un tiek pabeigts tikai trīs stundās ar kopējām izmaksām, kas ir mazākas par 100 USD! Pētījums, kas tika veikts, lai pārbaudītu Crossbow precizitāti, parādīja, ka tas var salīdzināt katru genomu ar 99 procentu precizitāti. Vēl viena noderīga Crossbow īpašība ir tā, ka tā darbojas uz mākoņa. Tādējādi Crossbow ļaus tūkstošiem nākamo sekvencēšanas centru, piemēram, slimnīcām, sakārtot lielu daudzumu genoma datu, neizmantojot jaudīgus un dārgus datorus un tehnoloģijas.

Cita uz Hadoop balstīta genomikas programmatūra

Daudzi uzņēmumi ir atzinuši Hadoop spēku mainīt genomikas pasauli. Viņi ir atbilstoši modificējuši Hadoop, lai izmantotu tā progresīvās genoma sekvences iespējas. Tālāk ir sniegti daži slavenu Hadoop balstītu genomu sekvencēšanas risinājumu piemēri:

Hadoop-BAM: tas ir jaudīgs datu pārvaldības rīks, kas izmanto Hadoop MapReduce funkciju dažādām darbībām, kas saistītas ar genomiku, piemēram, genotipēšanu. Tas darbojas binārā izlīdzināšanas / kartes formātā.
Cloudburst: Šis uz Hadoop balstīts risinājums tika izveidots 2009. gadā. Tas ir ārkārtīgi efektīvs, salīdzinot genomu secības un kartējot atsevišķus gēnus. Šī ir arī viena no pirmajām Hadoop balstītajām lietojumprogrammām, kas izstrādātas šim nolūkam.

Secinājums

Lieldatu un genomikas nozares integrācija mūsdienās ir izrādījusies labvēlīga parādība. Šīs platformas ir efektīvas, atklājot vairāku slimību, piemēram, vēža, ārstēšanu. Dati, kas tiek iegūti, veicot genoma kartēšanu, var tikt izmantoti, lai formulētu profilaktisko informāciju par šādām slimībām. Lielu datu parādīšanos var uzskatīt par pagrieziena punktu genomikas pasaulē, un, ja informācija tiek izmantota saprātīgi, iespējams, arī plašākā veselības aprūpes jomā. Vienīgais veids, kā šajā jomā attīstīties, ir pienācīgu datu pārvaldības rīku, piemēram, Hadoop, izmantošana.