7 soļi datu ieguves un datu zinātnes apguvei

Autors: Eugene Taylor
Radīšanas Datums: 12 Augusts 2021
Atjaunināšanas Datums: 22 Jūnijs 2024
Anonim
Process of Data Analytics | Understand high level steps in 3 minutes
Video: Process of Data Analytics | Understand high level steps in 3 minutes

Saturs


Avots: Paul Fleet / Dreamstime.com

Izņemšana:

Datu zinātni vislabāk apgūst darot, taču ir svarīgi arī labs statistikas un mašīnmācīšanās pamats.

Man bieži jautā, kā iemācīties datu ieguvi un datu zinātni. Šeit ir mans kopsavilkums.

Datu ieguvi un datu zinātni vislabāk var apgūt, veicot darbu, tāpēc sāciet analizēt datus, cik drīz vien iespējams! Tomēr neaizmirstiet apgūt teoriju, jo jums ir nepieciešams labs statistikas un mašīnmācīšanās pamats, lai saprastu, ko jūs darāt, un lielo datu radītajā troksnī atrastu reālus vērtības tīrradņus.

Šeit ir septiņi soļi datu ieguves un datu zinātnes apguvei. Lai arī tie ir numurēti, tos var izdarīt paralēli vai citā secībā.

  1. Valodas: Uzziniet R, Python un SQL
  2. Rīki: uzziniet, kā izmantot datu ieguves un vizualizācijas rīkus
  3. grāmatas: lai izprastu pamatus, lasiet ievadgrāmatas
  4. Izglītība: skatieties tīmekļa seminārus, apmeklējiet kursus un apsveriet sertifikātu vai grādu datu zinātnē (lasīt vairāk sadaļā Ben Loricas Kā uzaudzināt datu zinātnieku.)
  5. Dati: pārbaudiet pieejamos datu resursus un atrodiet tur kaut ko
  6. Sacensības: piedalīties datu ieguves sacensībās
  7. Mijiedarboties ar citiem datu zinātniekiem, izmantojot sociālos tīklus, grupas un sanāksmes

Šajā rakstā es savstarpēji aizstāju datu ieguvi un datu zinātni. Skatiet manu prezentāciju, Analytics nozares pārskatu, kurā es apskatīju dažādu terminu, piemēram, statistikas, zināšanu atklāšanas, datu ieguves, jutīgās analītikas, datu zinātnes un lielo datu attīstību un popularitāti.


1. Valodu apguve

Nesenā KDnuggets aptauja atklāja, ka populārākās datu ieguves valodas ir R, Python un SQL. Katram ir daudz resursu, piemēram:

  • Bezmaksas e-grāmata par datu zinātni ar R
  • Darba sākšana ar datu zinātnes Python
  • Datu analīzes pitons: veikli rīki reālās pasaules datiem
  • Neaizstājams pitons: datu iegūšana datu zinātnei
  • W3 skolas mācās SQL

2. Rīki: datu ieguve, datu zinātne un vizualizācijas programmatūra

Dažādiem uzdevumiem ir daudz datu ieguves rīku, taču vislabāk ir iemācīties izmantot datu ieguves komplektu, kas atbalsta visu datu analīzes procesu. Varat sākt ar atvērtā koda (bezmaksas) rīkiem, piemēram, KNIME, RapidMiner un Weka.

Tomēr daudziem analītikas darbiem jums jāzina SAS, kas ir vadošais komerciālais rīks un tiek plaši izmantots. Pie citām populārām analītikas un datu ieguves programmatūrām pieder MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler un Rattle.


Bez kļūdām, bez stresa - jūsu soli pa solim, kā izveidot programmatūru, kas maina dzīvi, neiznīcinot savu dzīvi

Jūs nevarat uzlabot savas programmēšanas prasmes, kad nevienam nerūp programmatūras kvalitāte.

Vizualizācija ir būtiska jebkuras datu analīzes sastāvdaļa. Uzziniet, kā izmantot Microsoft Excel (labs daudziem vienkāršākiem uzdevumiem), R grafiku (īpaši ggplot2) un arī Tableau - lielisku vizualizācijas paketi. Citi labi vizualizācijas rīki ietver TIBCO Spotfire un Miner3D.

3. grāmatas

Ir daudz datu ieguves un datu zinātnes grāmatu, taču varat tos pārbaudīt:

  • Datu ieguve un analīze: Pamatjēdzieni un algoritmi, bezmaksas lejupielāde PDF formātā (melnraksts), Mohammed Zaki un Wagner Meira Jr.
  • Datu ieguve: praktiski mašīnmācīšanās rīki un paņēmieni, autori Ian Witten, Eibe Frank un Marks Hall no Weka autoriem un plaši izmantojot Weka piemēros
  • Trevor Hastie, Roberta Tibshirani, Jerome Friedman statistiskās mācīšanās, datu ieguves, secinājumu un pareģojuma elementi. Lielisks ievads matemātiski orientētam
  • Roberto Battiti un Mauro Brunato, LIONbook: Learning and Intelligent Optimization, brīvi pieejams tīmeklī, nodaļa pa nodaļai
  • Masveida datu kopu ieguve, A. Rajaraman, J. Ullman
  • StatSoft elektroniskās statistikas grāmata (bezmaksas) satur daudzas datu ieguves tēmas

4. Izglītība: vebināri, kursi, sertifikāti un grādi

Sākumā varat noskatīties dažus no daudzajiem bezmaksas tiešsaistes semināriem un tīmekļa pārraidēm par jaunākajām tēmām analītikā, lielajiem datiem, datu ieguvei un datu zinātnei.

Ir arī daudz tiešsaistes kursu, īsi un gari, daudzi no tiem ir bezmaksas. (Sk. KDnuggets tiešsaistes izglītības direktoriju.)

Īpaši pārbaudiet šos kursus:

  • Mašīnu apguve Kursā, pasniedzējs Endrjū Ng
  • Mācīšanās no datiem pie edX, mācīja Kaltehas profesors Yaser Abu-Mostafa
  • Atvērts tiešsaistes lietišķo datu zinātnes kurss no Syracuse iSchool
  • Datu ieguve ar Weka, bezmaksas tiešsaistes kurss
  • Pārbaudiet arī bezmaksas tiešsaistes slaidus no mana Datu ieguves kursa, kas ir semestra garš ievadkurss datu ieguvē

Visbeidzot, apsveriet sertifikātu iegūšanu datu ieguvē un datu zinātnē vai augstākos grādos, piemēram, maģistra grādu datu zinātnē.

5. Dati

Jums būs nepieciešami dati, lai analizētu - skatiet datu ieguves datu kopu direktoriju KDnuggets, tai skaitā:

  • Valdību, federālo, štatu, pilsētu, vietējo un publisko datu vietnes un portāli
  • Datu API, centrmezgli, tirgus laukumi, platformas, portāli un meklētājprogrammas
  • Bezmaksas publiskās datu kopas

6. Sacensības

Atkal jūs vislabāk iemācīsities darot, tāpēc piedalieties Kaggle sacensībās. Sāciet ar iesācēju sacensībām, piemēram, Titānika izdzīvošanas prognozēšana, izmantojot mašīnu mācīšanos.

7. Mijiedarbība: sapulces, grupas un sociālie tīkli

Jūs varat pievienoties daudzām vienaudžu grupām. Skatiet 30 populārākās LinkedIn grupas analītikai, lielajiem datiem, datu ieguvei un datu zinātnei.

AnalyticBridge ir aktīva analītikas un datu zinātnes kopiena.

Jūs varat apmeklēt dažas no daudzajām sanāksmēm un konferencēm par Analytics, lielo datu, datu ieguvi, datu zinātni un zināšanu atklāšanu.

Apsveriet arī iespēju pievienoties ACM SIGKDD, kas organizē ikgadējo KDD konferenci - vadošo pētījumu konferenci šajā jomā.

Šis raksts ir izveidots no KDNuggets.com niedrēm. Tas ir izmantots ar autora atļauju.