Data Science -perusteet
Data Science on ilmiö- ja oppiainerajat ylittävä kokoelma erilaisia menetelmiä liiketoiminnan kehittämiseksi datan avulla. Data Scientist on organisaation datan syväosaaja, jolla on hallussaan sekä datan käsittelyn osaaminen että menetelmäosaaminen.
Data Scientist työskentelee usein yhdessä data engineeringin sekä organisaation muiden osaajien kanssa, yhteistyön merkitystä ei voi olla korostamatta liikaa.
Kurssilla käytetään Python-ohjelmointikieltä interaktiivisten Jupyter-notebookien avulla, asennukset ja harjoitukset tehdään kouluttajien ohjeiden mukaan
Location
Helsinki
Training formats
Classroom
Remote
Duration
2 päivää
Price
1590 €
Tavoite
Osallistuja ymmärtää mitä Data Science on, miten dataa käsitellään Python-ohjelmointikielellä ja millaista data-analyysia on mahdollista tehdä sen kirjastoilla. Toisena päivänä käydään läpi koneoppimisen ratkaisuja Pythonin avulla.
Python on tällä hetkellä suosituimpia ohjelmointikieliä data scientistien käytössä, sillä pääsee nopeasti alkuun ja valmiita kirjastoja löytyy runsaasti erilaisiin tarkoituksiin.
Esitiedot
Osallistujan ei tarvitse tuntea aihealuetta ennalta.
Data Science -perusteet -koulutuksen sisältö
Ensimmäisenä päivänä käsiteltävät asiat:
Johdanto Data Scienceen
- Mitä on Data Science?
- Python ja Data Science
- Kirjallisuutta
Python, Visual Studio Code ja Jupyter asennus
- Asennukset
- Lyhyt opastus VSC:n käyttöön
Python perusteita
- Datarakenteet
- Kontrollirakenteet
- Funktiot
Pandas – datan lukeminen
- Pandas - kirjastosta
- Datan lukeminen
Pandas - datan muokkaaminen
- Sarakkeiden ja rivien valinta
- Muunnokset
- Oman funktion käyttö
Pandas - aineiston summatunnusluvut
- Yksinkertaiset summaukset
- Ryhmittelysummaukset
- Pivotointi ja ristiintaulukointi
Datan visualisointia Pythonilla
- Matplotlib ja Seaborn - kirjastot
- Esimerkkigraafeja
Toisena päivänä käsiteltävät asiat:
Johdanto koneoppimiseen
- Mitä on koneoppiminen?
- Mallin kehittäminen
- Mallin tulosten validointi
- Ennustaminen
Luokitteluongelma
- Mitä on luokittelu?
- Scikit-learn tree model
- Mallin tulosten validointi
Tarkkuus / ROC / AUC / jne.
- Ennustaminen
Regressio-ongelma
- Mitä on regressio?
- OLS – regressio
- Mallin tulosten validointi
- Ennustaminen
Muut koneoppimisasiat
- Muuttujien valinta malliin
- Mallin dimension pienennys (esim. PCA)
- Mallin muuttujien vaikutuksen suuruus
- Yhdistelmämallit (esim. GradientBoostingClassifier)
Koulutuksen vetäjänä toimii Ready Solutions Oy:n asiantuntija.