Kādi ir daži galvenie veidi, kā automatizēt un optimizēt datu zinātnes procesus? googletag.cmd.push (funkcija () {googletag.display (div-gpt-ad-1562928221186-0);}); J:

Saturs

J:

Kādi ir daži galvenie veidi, kā automatizēt un optimizēt datu zinātnes procesus?

A:

Datu zinātnes procesus mašīnmācības un AI kontekstā var iedalīt četrās atšķirīgās fāzēs:

datu iegūšana un izpēte,
paraugbūve,
modeļa izvietošana un
tiešsaistes novērtēšana un uzlabošana.

Pēc manas pieredzes visvairāk kavējošās fāzes ir datu iegūšanas un modeļa ieviešanas fāzes jebkurā uz mašīnmācību balstītā datu zinātnes procesā, un šeit ir divi veidi, kā tos optimizēt:

1. Izveidojiet ļoti pieejamu datu krātuvi.

Lielākajā daļā organizāciju dati netiek glabāti vienā centrālā vietā. Ņemsim tikai informāciju, kas saistīta ar klientiem. Ja jūsu bizness ir tīmekļa lietojumprogramma, jums ir klientu kontaktinformācija, klientu atbalsta s, klientu atsauksmes un klientu pārlūkošanas vēsture. Visi šie dati ir dabiski izkliedēti, jo tie kalpo dažādiem mērķiem. Tie var atrasties dažādās datu bāzēs, un daži var būt pilnībā strukturēti un daži nestrukturēti, un tos var pat uzglabāt kā vienkāršus failus.

Diemžēl šo datu kopu izkliedētība ļoti ierobežo datu zinātnes darbu, jo visu NLP, mašīnmācīšanās un AI problēmu pamatā ir dati. Tātad visu šo datu glabāšana vienā vietā - datu krātuvē - ir ārkārtīgi svarīga, lai paātrinātu modeļa izstrādi un ieviešanu. Ņemot vērā, ka tas ir būtisks elements visos datu zinātnes procesos, organizācijām vajadzētu pieņemt darbā kvalificētus datu inženierus, lai palīdzētu viņiem veidot datu bāzes. To var viegli sākt, jo vienkāršas datu izmešanas vienā vietā un lēnām pārtapa pārdomātā datu krātuvē, kas ir pilnībā dokumentēta un pieprasāma ar lietderības rīkiem, lai eksportētu datu apakškopas dažādos formātos dažādiem mērķiem.

2. Atklājiet savus modeļus kā vienotas integrācijas pakalpojumu.

Papildus piekļuves nodrošināšanai datiem ir svarīgi arī spēt izstrādājumā integrēt datu zinātnieku izstrādātos modeļus. Var būt ārkārtīgi grūti integrēt Python izstrādātos modeļus ar tīmekļa lietojumprogrammu, kas darbojas ar Ruby. Turklāt modeļiem var būt daudz datu atkarību, ko jūsu produkts, iespējams, nespēj nodrošināt.

Viens veids, kā to novērst, ir izveidot spēcīgu infrastruktūru ap jūsu modeli un pakļaut tieši jūsu produktam nepieciešamo funkcionalitāti, lai modeli varētu izmantot kā “tīmekļa pakalpojumu”. Piemēram, ja jūsu lietojumprogrammai ir nepieciešama sentimentāla klasifikācija produktu pārskatos. , viss, kas tam jādara, ir interneta pakalpojuma izsaukšana, nodrošinot atbilstošo un pakalpojums sniegtu atpakaļ atbilstošu sentimenta klasifikāciju, kuru produkts var tieši izmantot. Tādā veidā integrācija notiek vienkārši API zvana veidā. Atdalot modeli un produktu, kas to izmanto, patiešām ir viegli jauniem izstrādājumiem, kurus jūs piedāvājat, arī viegli izmantot šos modeļus.

Tagad infrastruktūras izveidošana ap jūsu modeli ir pavisam cits stāsts, un no tā inženieru komandas prasa lielus sākotnējos ieguldījumus. Kad infrastruktūra ir, tas ir tikai jautājums par modeļu veidošanu tādā veidā, kas iekļaujas infrastruktūrā.