Datu katalogi un mašīnmācīšanās tirgus nogatavināšana

Video: How to Prepare Data for Machine Learning and A.I.

Saturs

Infonomika ir obligāta
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Ko datu katalogi var dot uzņēmumiem
Pievienošana mašīnmācībā
Kā izvēlēties

Avots: Nmedia / Dreamstime.com

Izņemšana:

MLDC tirgus aug, un uzņēmumiem, kas vēlas efektīvi izmantot lielos datus, izmantojot mašīnmācību, būtu jāapzinās nozares labākie vārdi un to individuālais vērtējums.

Šis ir lielo datu vecums. Mēs esam pārpludināti ar informāciju, un uzņēmumiem ir grūti pārvaldīt un iegūt no tās vērtību izaicinājumu.

Mūsdienu lielo datu plūsma ir saistīta ne tikai ar apjomu, dažādību un ātrumu, bet arī ar sarežģītību. Kā SAS secinājis lielo datu vēsturē un pašreizējos apsvērumos, tas ir straumju faktors "no vairākiem avotiem, kas apgrūtina datu sasaisti, saskaņošanu, tīrīšanu un pārveidi visās sistēmās". (Vai vēlaties uzzināt vairāk par lielajiem datiem? Pārbaudiet (Big) Datas Big Future.)

Vērtīga ieskata atrašana nav jautājums tikai par iespējami lielāka datu uzkrāšanu, bet gan par pareizo datu atrašanu. To visu nav iespējams izskatīt ar manuāliem procesiem. Tāpēc arvien vairāk uzņēmumu "vēršas pie datu katalogiem, lai demokratizētu piekļuvi datiem, ļautu cilts datiem iegūt informāciju, lai izveidotu informāciju, piemērotu datu politikas un ātri aktivizētu visus datus biznesa vērtībai".

Šeit attēlā ievada datu katalogus (dažreiz tos sauc arī par informācijas katalogiem). Kā definēts šeit, tie pilnvaro "lietotājus izpētīt savus nepieciešamos datu avotus un izprast izpētītos datu avotus, un tajā pašā laikā palīdz organizācijām sasniegt lielāku vērtību no viņu pašreizējiem ieguldījumiem". Viens no veidiem, kā tas tiek darīts, ir daudz lielāka piekļuves nodrošināšana datiem starp dažādiem lietotāju veidiem, kuri to var izmantot vai dot savu ieguldījumu.

Infonomika ir obligāta

Atzīmējot dramatiski pieaugošo pieprasījumu pēc datu katalogiem 2017. gada beigās, Gartners tos nodēvēja par “jauno melno”. Tie tika atzīti par ātru un ekonomisku risinājumu, "lai uzskaitītu un klasificētu organizācijas, kuras arvien vairāk izplata un neorganizē datu aktīvus, un kartētu viņu informācijas piegādes ķēdes". Nepieciešamība tam ir radusies sakarā ar "infonomics" parādīšanos, kas prasa informācijas izsekošanā piemērot tādu pašu rūpīgumu kā citu biznesa aktīvu pārvaldīšana. (Plašāku informāciju par piegādes ķēdēm skatiet sadaļā Kā mašīnmācība var uzlabot piegādes ķēdes efektivitāti.)

Gartners ņem strēles ar The Forrester Wave ™: Machine Learning Data Catalogue, Q2 2018. Vairāk nekā puse aptaujas dalībnieku šajā ziņojumā sacīja, ka plāno veidot savu datu kataloga ieviešanu. Iespējams, ka viņus lielā mērā motivēja fakts, ka katram no viņiem organizācijā bija vismaz septiņi datu ezeri. Kā skaidro Gartners par datu katalogiem, datu katalogi ir īpaši noderīgi, lai izvilktu "datu saturu, nozīmi un vērtību", kas parasti tiek atstāts neklasificētā formā datu ezerā.

Forrester ziņo, ka vairāk nekā trešdaļa datu un analītisko lēmumu pieņēmēju 2017. gadā nodarbojās ar 1 000 TB vai vairāk datiem - summu, par kuru iepriekšējā gadā ziņoja tikai no 10 līdz 14 procentiem. Datu pārvaldība šādā mērogā ir pieaugošs izaicinājums vai, konkrēti, divi izaicinājumi:

"1) esošo biznesa procesu apvienošana, lai iegūtu datus, lai tos analizētu un ieviestu atziņas, un 2) datu iegūšana, apkopošana, pārvaldīšana un pārvaldīšana, pieaugot."

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Ko datu katalogi var dot uzņēmumiem

Gartners identificē īpašus veidus, kā datu katalogi var uzlabot organizāciju informācijas plūsmu un produktivitāti:

Organizācijai pieejamo jaunāko informācijas līdzekļu inventarizācijas apkopošana un paziņošana par tiem.
Izveidot kopēju biznesa terminu glosāriju, kas nosaka organizāciju datu semantisko interpretāciju un nozīmi, tādējādi nodrošinot līdzekļus, kas nepieciešami, lai starpniecību un atrisinātu definīciju neatbilstības.
Iespējojot dinamisku un veiklu sadarbības vidi, lai biznesa un IT kolēģi varētu komentēt, dokumentēt un dalīties ar datiem.
Datu lietojuma caurspīdīguma nodrošināšana ar cilts un ietekmes analīzi.
Datu uzraudzība, revīzija un izsekošana informācijas pārvaldības procesu atbalstam.
Metadatu uztveršana, lai uzlabotu datu izmantošanas un atkārtotas izmantošanas iekšējo analīzi, vaicājumu optimizāciju un datu sertifikāciju.
Informācijas vizualizēšana biznesa lietošanā, tverot, komunicējot un analizējot esošos datus, no kurienes tie nāk, kādos mīnusos tas tiek izmantots, kāpēc tas ir vajadzīgs, kā tas plūst starp procesiem un sistēmām, kurš par to ir atbildīgs, ko tas nozīmē un kāda ir tā vērtība.

Gartner ziņojumā teikts, ka ir svarīgi iegūt datus pareizi identificētus un pieejamus galvenajiem organizācijas darbiniekiem, nevis tikai lai atrastu veidu, kā "gūt peļņu no datu aktīviem, lai sasniegtu digitālo biznesa rezultātu", bet arī lai ievērotu noteikumus neatkarīgi no tā, vai tie ir nozares īpaši, piemēram, Veselības apdrošināšanas pārnesamības un atbildības likums (HIPAA), vai vispārīgāka rakstura, piemēram, Vispārīgā datu aizsardzības regula (GDPR).

Pievienošana mašīnmācībā

Bet nekas nav bez tā trūkumiem. Datu katalogos problēma ir bijis lēns un nogurdinošs process, kas saistīts ar manuālu visu metadatu izveidošanu, kas jāievieto. Šeit nonāk mašīnmācīšanās komponents.

Datu katalogi, kurus Forrester novērtēja, tiek saukti par MLDC, jo tie izmanto mašīnmācības jaudu, kas ir viena no AI sastāvdaļām. Kā paskaidroja Podium Data emuārs, tas ļauj "izveidot pastāvīgu metadatu krātuvi un pēc tam piemērot ML / AI, lai sesku veiktu un atklātu potenciāli noderīgu ieskatu par pamatā esošajiem datu aktīviem".

Kā izvēlēties

Lai palīdzētu organizācijām novērtēt, kurš no uzņēmumiem jāizvēlas, Forrester piemēroja 29 vērtēšanas punktus 12 MLDC. Tas identificēja šī tirgus līderus kā: IBM, Relito, Unifi Software, Alation un Collibra. Spēcīgākie izpildītāji, kurus tā atrada, ir Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics un Cloudera. Hortonworks ir viens pats "sāncenša" rangā.

Tomēr nevajadzētu iet tikai pēc kopvērtējuma. Ziņojumā ir sadalīti katras stiprās un vājās puses. Attiecīgi, ja kādai īpašai iezīmei, piemēram, pētniecībai un izstrādei, ir ārkārtīgi liela nozīme organizācijā, tā var uzskatīt Hortonworks par IBM un Colilbra līdzvērtīgu šajā aspektā, jo šiem trim ir augstāks punktu skaits - pieci par šo kvalitāti, kas bija par diviem punktiem labāk nekā Alation un Coloudera un par četriem punktiem labāk nekā Cambridge Semantics.

Attiecīgi Forrester ziņojumā ieteikts tiem, kas izmanto savu ziņojumu vadlīnijām, neuzskatīt, ka visaugstāk novērtētais uzņēmums ir labākā izvēle visiem. Viņiem jāpievērš īpaša uzmanība novērtējuma sadalījumam, lai atrastu to, kas atbilst viņu īpašajām prasībām.