Vai lielos datos kādreiz var būt par daudz datu?

Autors: Laura McKinney
Radīšanas Datums: 4 Aprīlis 2021
Atjaunināšanas Datums: 1 Jūlijs 2024
Anonim
IZRAKŠANAS KARŠ! 2021. GADA SEZONAS LABĀKIE ATRADUMI! SUBTITRI!
Video: IZRAKŠANAS KARŠ! 2021. GADA SEZONAS LABĀKIE ATRADUMI! SUBTITRI!

Saturs

J:

Vai lielos datos kādreiz var būt par daudz datu?


A:

Atbilde uz jautājumu ir izteikta JĀ. Lielu datu projektā absolūti var būt pārāk daudz datu.

Ir daudz veidu, kā tas var notikt, un dažādi iemesli, kāpēc profesionāļiem ir jāierobežo un jāveido dati daudzos veidos, lai iegūtu pareizos rezultātus. (Izlasiet 10 lielos mītus par lielajiem datiem.)

Kopumā eksperti runā par modeļa "signāla" atšķiršanu no "trokšņa". Citiem vārdiem sakot, lielu datu jūrā attiecīgos ieskatu datus kļūst grūti noteikt. Dažos gadījumos jūs meklējat adatu siena kaudzē.

Piemēram, pieņemsim, ka uzņēmums mēģina izmantot lielos datus, lai ģenerētu īpašas atziņas par klientu bāzes segmentiem un viņu pirkumiem noteiktā laika posmā. (Izlasiet Ko dara lieli dati?)

Liela apjoma datu aktīvu uzņemšana var izraisīt nejaušu datu iegūšanu, kas nav nozīmes, vai pat var radīt novirzi, kas datus sagroza vienā vai otrā virzienā.

Tas arī dramatiski palēnina procesu, jo skaitļošanas sistēmām ir jācīnās ar lielākām un lielākām datu kopām.


Tik daudzos dažāda veida projektos datu inženieriem ir ļoti svarīgi veidot datus ierobežotām un specifiskām datu kopām - iepriekš minētajā gadījumā tie būtu tikai dati par šo pētāmo klientu segmentu, tikai tā laika dati. pētāmo rāmi un pieeju, kas atsijā papildu identifikatorus vai pamatinformāciju, kas var sajaukt lietas vai palēnināt sistēmas. (ReadJob loma: datu inženieris.)

Lai uzzinātu vairāk, ļaujiet aplūkot, kā tas darbojas mašīnmācības robežās. (Lasīt mašīnu apguvi 101.)

Mašīnmācības eksperti runā par kaut ko sauc par “pārmērīgu aprīkošanu”, kur pārāk sarežģīts modelis noved pie mazāk efektīviem rezultātiem, ja mašīnmācīšanās programma tiek atbrīvota no jauniem ražošanas datiem.

Pārmērīga uzstādīšana notiek, ja sarežģīts datu punktu komplekts pārāk labi atbilst sākotnējam treniņu komplektam un neļauj programmai viegli pielāgoties jauniem datiem.

Tagad tehniski pārmērīgu aprīkošanu izraisa nevis pārāk daudz datu paraugu, bet gan pārāk daudz datu punktu koronēšana. Bet jūs varētu apgalvot, ka pārāk daudz datu var būt arī veicinošs faktors šāda veida problēmās. Darbs ar dimensijas lāstu ietver dažus no tiem pašiem paņēmieniem, kas tika veikti iepriekšējos lielos datu projektos, jo profesionāļi mēģināja precīzi noteikt, ko viņi baro IT sistēmām.


Galvenais ir tas, ka lieli dati var būt ļoti noderīgi uzņēmumiem, vai arī tie var kļūt par lielu izaicinājumu. Viens no aspektiem ir tas, vai uzņēmumam ir pareizi dati. Eksperti zina, ka nav ieteicams visus datu resursus vienkārši nogremdēt piltuvē un nākt klajā ar atziņām šādā veidā - jaunās mākoņdatošanas vietnēs un sarežģītās datu sistēmās ir mēģināts kontrolēt un pārvaldīt un veidot datus, lai iegūtu precīzāku un precīzāku informāciju. efektīva datu aktīvu izmantošana.