Cik strukturēti ir jūsu dati? Strukturētu, nestrukturētu un daļēji strukturētu datu pārbaude

Video: 2. What is data? Different types of data? Structured | Semi-structured | Unstructured data

Saturs

Kas ir strukturētie dati?
Kas ir nestrukturēti dati?
Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi
Iekrist starp: daļēji strukturēti dati
Vai nestrukturētus datus var pārveidot par strukturētiem datiem?

Avots: monsitj / iStockphoto

Izņemšana:

Uzziniet par strukturētiem, nestrukturētiem un daļēji strukturētiem datiem.

Vēsturiski datu analītiķi bija spējīgi atšifrēt un iegūt informāciju tikai no viena veida datiem: strukturētiem datiem. Šāda veida datus bija viegli meklēt, ņemot vērā skaidros modeļus, taču tie veidoja nelielu daļu no visiem pieejamajiem datiem.

Nestrukturēti dati ietvēra video, audio, s un datus, kas nāk arī no sociālajiem medijiem un mobilajām ierīcēm. Tā bija, vislielākā pieejamās neapstrādātas informācijas rezerve, taču neviens nespēja ticami izmantot šo resursu.

Tomēr situācija ir mainījusies, jo pieaugošā uzglabāšanas pieejamība un augstākās apstrādes iespējas ir radījušas nestrukturētu datu analītiku - jaunu un tādējādi nenobriedušu tehnoloģijas veidu. Labāka biznesa inteliģence pilnībā izmanto šo iespēju, un tiek veikti ievērojami ieguldījumi, lai apkopotu strukturētu un nestrukturētu datu analītiku, lai piekļūtu šai acīmredzami nebeidzamajai zelta ieguvei.

Apskatīsim šos divus datu formātus, lai izprastu to atšķirības un to, kas visiem datu analītiķiem ir nākotnē.

Kas ir strukturētie dati?

Strukturētie dati ir cilvēku vai mašīnu ģenerēta un labi organizēta informācija, ko var viegli uzglabāt rindu datu bāzes struktūrās, kas pazīstamas kā relāciju datu bāzes (RDB). Tas ir jebkas, kas pastāv formātā, kuru var viegli tvert, saglabāt un sakārtot RDB struktūrā, lai vēlāk to analizētu. (Lai uzzinātu vairāk par datu bāzēm, iepazīstieties ar mūsu Ievadu datu bāzēs.)

Kā piemērus var minēt pasta indeksus, tālruņu numurus un lietotāju demogrāfiskos datus, piemēram, vecumu vai dzimumu. Šajās datu bāzēs atrodamos datus var meklēt, izmantojot strukturētās vaicājumu valodas (SQL) vai VLOOKUP funkcijas Excel izklājlapās. Var veikt arī algoritmus, lai ātri meklētu dažādos laukos atrastos datus, izmantojot to indeksus vai skaitliskos un alfabētiskos datus. Tomēr visi dati ir stingri definēti lauka veida un nosaukuma izteiksmē, un tādējādi zināmā mērā ir ierobežota spēja tos uzglabāt, meklēt un analizēt.

Tipiskas lietojumprogrammas, kas izmanto strukturētus datus, ir slimnīcu pārvaldības programmatūra, klientu attiecību pārvaldības (CRM) lietojumprogrammas un aviobiļešu rezervēšanas sistēmas. Sakarā ar glītu organizāciju un vieglu pieejamību, strukturēti dati ir noderīgi un efektīvi, strādājot ar lielu informācijas daudzumu. Veicot urbšanu melnajai eļļai, kas paslēpta nebeidzamajā datu apjomā, ko katru dienu ražo cilvēce, tomēr strukturētu datu meklēšana ir nekas cits kā virsmas skrāpēšana.

Kas ir nestrukturēti dati?

Lielākā daļa datu, kas atrodami organizācijā, nav strukturēti, un daži lēš, ka tie veido līdz 80 procentiem no visiem šobrīd pieejamajiem datiem. Pēc definīcijas nestrukturēti dati ir viss, kam nav identificējamas iekšējās struktūras. Tomēr daži datu veidi, kas ietilpst šajā kategorijā man ir kāda veida neskaidra iekšējā struktūra, tomēr tā neatbilst datu bāzei vai izklājlapai.

Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Lielākā daļa biznesa datu ir nestrukturēti, sākot ar mijiedarbību ar klientu apkalpošanu, failiem, tīmekļa žurnāliem, video un citu multivides saturu, pārdošanas automatizāciju, sociālajiem medijiem. Nav nepieciešams izskaidrot, cik vērtīgi varētu būt šie dati, ja tos varētu iegūt, organizēt un analizēt.

Lielāko daļu nestrukturētu datu iegūst cilvēki, un tādējādi tie ir saprotami citiem cilvēkiem. Tas nozīmē, ka modernāka datora inteliģence nesaprot šāda veida informāciju, jo tā ir pārāk tālu no mašīnvalodas un strukturētu datu bāzu linearitātes.

Iekrist starp: daļēji strukturēti dati

Daļēji strukturēti dati ir trešais datu tips, kas pārstāv daudz mazāku visa pīrāga gabalu (5–10 procenti). Burtiski iekļūstot starp abām pasaulēm, daļēji strukturētie dati satur iekšējus semantiskos tagus un marķējumus, kas identificē atsevišķus elementus, bet trūkst struktūras, kas nepieciešama, lai ietilptu relāciju datu bāzē.

Piemēram, s var šķist strukturēti dati, jo tos var klasificēt pēc datuma, faila lieluma vai laika. Tomēr tās nav, jo visvērtīgākā informācija ir atrodama tajās, nevis tās salīdzinoši vienkāršās etiķetes. To patiesībā nevar sakārtot pēc satura un priekšmeta, jo cilvēki nerunā tik stingri, lai ļautu mašīnai tos viennozīmīgi saprast. Citi daļēji strukturētu datu piemēri ietver NoSQL datu bāzes, atvērtā standarta JSON un iezīmēšanas valodas XML.

Daļēji strukturētus datus parasti vaicā un kataloģizē, izmantojot metadatu analīzi. Piemēram, rentgenstaru skenēšana sastāv no milzīga skaita pikseļu, kas veido attēlu - kas būtībā ir nestrukturēti dati, kuriem nevar piekļūt. Tomēr skenētajā failā joprojām būs metadatu daļa, kas sniedz informāciju par to, piemēram, anotācijas un lietotāja ID.

Vai nestrukturētus datus var pārveidot par strukturētiem datiem?

Pamata izaicinājums, ar kuru jāsaskaras katram datu analītiķim, ir organizēt pieejamo informāciju glītā, sakārtotā veidā, lai tai varētu piekļūt un to saprast. Datu ieguves rīki parasti nav aprīkoti, lai parsētu informāciju, kas pēc definīcijas ir pārāk līdzīga cilvēku valodai, kas nozīmē, ka to var apkopot un klasificēt tikai cits cilvēks.

Tomēr milzīgais nestrukturēto datu apjoms padara visus mēģinājumus tos uzglabāt vai organizēt ļoti darbietilpīgus un dārgus. Informācijas kopums, kas nāk, piemēram, no tīmekļa meklētājprogrammas, ir tik milzīgs, ka lielākajai daļai elementu ir nepieciešami milzīgi ieguldījumi darba un resursu ziņā, lai iegūtu visvienkāršākos. Pat visefektīvākajām datu ieguves metodēm joprojām trūkst ievērojama apjoma informācijas, kas atrodama tīmeklī un, vēl sliktāk, dziļajā tīmeklī.

Bet paņēmieni pastāv. Un tie tiek izstrādāti pārsteidzošā ātrumā. Piemēram, metadatus varētu izmantot, lai savienotu strukturētus un nestrukturētus datus kopā. Iegūto informāciju var filtrēt un indeksēt gan lietotāji, gan algoritmi, kā arī tikai attiecīgo datu analīzei. Pie citiem risinājumiem pieder "datu sagrozīšana", kas ir process, kura laikā sarežģītus datus pakāpeniski organizē netehniskie lietotāji. (Lai uzzinātu vairāk par parastajiem lietotājiem, kuri apstrādā datus, skatiet sadaļu Cik lieli dati var palīdzēt pašapkalpošanās analīzē.)

Kādā brīdī mēs varēsim efektīvi pārveidot šos masveidā neorganizētos informācijas apjomus organizētākā un pārstrukturētākā formātā. Varbūt ne šodien, varbūt ne rīt, bet drīz mēs varēsim uzbrukt lielākajai velvju cilvēcei, kāda jebkad redzēta: lieliem datiem.