FrontpageTrainingsData Science -perusteet

Data Science -perusteet

Data Science on ilmiö- ja oppiainerajat ylittävä kokoelma erilaisia menetelmiä liiketoiminnan kehittämiseksi datan avulla. Data Scientist on organisaation datan syväosaaja, jolla on hallussaan sekä datan käsittelyn osaaminen että menetelmäosaaminen.

Data Scientist työskentelee usein yhdessä data engineeringin sekä organisaation muiden osaajien kanssa, yhteistyön merkitystä ei voi olla korostamatta liikaa.

Kurssilla käytetään Python-ohjelmointikieltä interaktiivisten Jupyter-notebookien avulla, asennukset ja harjoitukset tehdään kouluttajien ohjeiden mukaan


Location
Helsinki

Training formats
Classroom
Remote

Duration
2 päivää

Price
1590 €

Tavoite

Osallistuja ymmärtää mitä Data Science on, miten dataa käsitellään Python-ohjelmointikielellä ja millaista data-analyysia on mahdollista tehdä sen kirjastoilla. Toisena päivänä käydään läpi koneoppimisen ratkaisuja Pythonin avulla.

Python on tällä hetkellä suosituimpia ohjelmointikieliä data scientistien käytössä, sillä pääsee nopeasti alkuun ja valmiita kirjastoja löytyy runsaasti erilaisiin tarkoituksiin.

 

Esitiedot

Osallistujan ei tarvitse tuntea aihealuetta ennalta.

Data Science -perusteet -koulutuksen sisältö

Ensimmäisenä päivänä käsiteltävät asiat:

Johdanto Data Scienceen

  • Mitä on Data Science?
  • Python ja Data Science
  • Kirjallisuutta

Python, Visual Studio Code ja Jupyter asennus

  •  Asennukset
  • Lyhyt opastus VSC:n käyttöön

Python perusteita

  • Datarakenteet
  • Kontrollirakenteet
  • Funktiot

Pandas – datan lukeminen

  • Pandas - kirjastosta
  • Datan lukeminen

Pandas - datan muokkaaminen

  • Sarakkeiden ja rivien valinta
  • Muunnokset
  • Oman funktion käyttö

Pandas - aineiston summatunnusluvut

  • Yksinkertaiset summaukset
  • Ryhmittelysummaukset
  • Pivotointi ja ristiintaulukointi

Datan visualisointia Pythonilla

  • Matplotlib ja Seaborn - kirjastot
  • Esimerkkigraafeja

Toisena päivänä käsiteltävät asiat:

Johdanto koneoppimiseen

  • Mitä on koneoppiminen?
  • Mallin kehittäminen
  • Mallin tulosten validointi
  • Ennustaminen

Luokitteluongelma

  • Mitä on luokittelu?
  • Scikit-learn tree model
  • Mallin tulosten validointi

Tarkkuus / ROC / AUC / jne.

  • Ennustaminen

Regressio-ongelma

  • Mitä on regressio?
  • OLS – regressio
  • Mallin tulosten validointi
  • Ennustaminen

Muut koneoppimisasiat

  • Muuttujien valinta malliin
  • Mallin dimension pienennys (esim. PCA)
  • Mallin muuttujien vaikutuksen suuruus
  • Yhdistelmämallit (esim. GradientBoostingClassifier)

Koulutuksen vetäjänä toimii Ready Solutions Oy:n asiantuntija.