skip to Main Content
Instituut voor toegepaste statistiek en data-analyse Geaccrediteerd door de Vereniging voor Statistiek

Traineeship | Data Scientist | data analist | data engineer

Het Tridata traineeship Data Scientist, Data Analist en Data Engineer bestaat uit 3 onderdelen. Het volgen van het volledige programma leidt op tot een breed inzetbaar, of juist een gespecialiseerd data professional met ervaring met uiteenlopende data-gerelateerde vraagstukken. Het is tevens mogelijk om de onderdelen los te volgen of om een programma op maat in te richten gebaseerd op onderstaande onderwerpen. Het programma hieronder is gebaseerd op de programmeertaal R, maar kan ook worden gevolgd in Python.

Data Engineer (14 weken)

De data engineer is verantwoordelijk voor het prepareren en verrijken van data. De engineer ontwerpt, bouwt en integreert datasets in een voor de organisatie geschikte omgeving. In het traineeship leert de data engineer omgaan met verschillende grote databestanden, het koppelen en bewerken van data, en het verbeteren van de datakwaliteit door opschonen en imputeren in verschillende softwarepakketten.

Introductie & Data Transformaties met R en Rstudio

  • Introductie in R & R Studio:
    • Basis R: wat is een R object; basis verschillende soorten objecten zoals een variabele met 1 waarde
    • Wat noemen we een vector (kolom)
    • Welke typen kolommen kunnen er zijn in een tabel (integer, double, string, logical, tekst, etc.)
  • Bewerkingen op tabellen:
    • Filteren van rijen, selecteren van kolommen, aanpassen van kolommen, toevoegen van kolommen, kolomnamen veranderen, geaggregeerde statistieken uitrekenen
  • Overzicht van verschillende typen plots en wanneer welke te gebruiken:
    • Inleiding ggplot2

Datamanagement met R en RStudio

  • Geavanceerde eigenschappen van kolommen:
    • Werken met datums in tabellen
    • Categoriale variabelen (factoren) in tabellen
    • Werken met tekst
      • Basisbeginselen van Regular Expressions
      • Zoeken en vervangen van tekst
    • Data bestanden beheren:
      • Inlezen van tabellen uit verschillende soorten bestanden
      • Exporteren van tabellen
      • Koppelen van tabellen
      • Herschikken van data (lange & brede tabellen)
    • Metadatamanagement
      • Maken van codeboeken
      • Helder en beknopt beschrijven van de data
      • Datakwaliteit
    • Achtergrond: welke mogelijkheden zijn er, en welke kies ik voor een toepassing?
      • Data storage oplossingen en architectuur
      • Representatie van data voor presentatie, opslag, analyse
      • Datatypen voor specialistische toepassingen (bijvoorbeeld voor GIS toepassingen, netwerkanalyse, tijdreeksen)

Data Presentaties & Rapportage met R en Rstudio

  • Datavisualisatie
    • Grafieken en exploratieve data-analyse (combinaties van typen variabelen in verschillende plots – wat maak je nu inzichtelijk met welk type plot)
    • Additionele mogelijkheden met grafieken (facetwraps & facet grids)
    • Aanpassen titels, vormen, kleuren & labellen punten
  • Maken van rapporten – R Markdown:
    • Genereren van PDF, HTML of Word documenten
    • Dynamisch genereren van rapporten
    • Creëren van interactieve rapporten

Vereiste voorkennis en vaardigheden Data Engineer

Om de module Data Engineer succesvol af te sluiten wordt van de deelnemer een bepaald kennisniveau verwacht.
– Minimaal afgeronde HBO
– Basiskennis van databases
– Basiskennis van ICT-systemen

Data Analist (20 weken)

De data analist is verantwoordelijk voor het omzetten van een veelheid aan data in betekenisvolle informatie. De data analist analyseert de data aan de hand van onderzoeksvragen en hypothesen en gebruikt statistische technieken om tot een antwoord te komen. Vervolgens wordt het resultaat op een begrijpelijke manier gevisualiseerd. In het traineeship leert de data analist onderzoeksvragen en hypothesen zelfstandig formuleren en toetsen, welke technieken toe te passen, en hoe je het resultaat kunt visualiseren.

Programmeren met R

  • Inleiding R; hulp krijgen; de R community; packages.
  • Werken met de command-line en RStudio.
  • Rekenen met vectoren (kolommen) en data.frames (tabeldata)
  • Lezen en schrijven van tekstbestanden
  • Nieuwe variabelen maken
  • Statistische plots: boxplot, cirkeldiagram, histogram
  • Selecteren van rijen en kolommen
  • Hercoderen en hernoemen van variabelen
  • Koppelen en sorteren
  • Data groeperen en aggregeren
  • Random sampling van records (selecteren van ‘cases’ uit een gegevensbestand)

Basisbegrippen statistiek & onderzoeksvragen

  • Plaats van statistiek in het onderzoeksproces
  • Basisbegrippen beschrijvende statistiek (meetniveaus variabelen, absolute en cumulatieve frequenties, centrum- / spreidingsmaten en grafische weergave)
  • Basisbegrippen toetsende/verklarende statistiek (hypothese toetsen, statische significantie, statistische power, populatieverdeling, soorten steekproeven, steekproefgrootte, steekproevenverdeling, betrouwbaarheidsintervallen, z-scores, t-scores)
  • Grafieken (staafdiagram, histogram, boxplots, scatterplot)
  • Ontbrekende waarden (missing values) en extreme waarden (outliers)
  • Statistische basisbegrippen voor meetkwaliteit (betrouwbaarheid, validiteit, representativiteit)

Groepen vergelijken

  • Onderzoeksvraag bij t-test
  • Verschillende soorten t-test toegelicht
  • One-sample t-test
  • Dependent sample t-test
  • Independent sample t-test
  • Toepassen in R
  • Interpretatie t-test

Variantie-analyse

  • Onderzoeksvraag bij univariate variantie-analyse (ANOVA)
  • Univariate variantie-analyse (ANOVA) toegelicht
  • Factorial ANOVA
  • ANCOVA
  • MANOVA
  • Post-hoc analyse
  • Analyse ANOVA in R
  • Intepretatie ANOVA

Regressie analyse

  • Analyse toegelicht (Correlatie en regressie-analyse)
  • Het verband tussen variabelen
  • Het bereik van correlatie
  • Verschillende soorten correlaties
  • Causaliteit en correlatie
  • Analyses waarmee voorspellingen gedaan kunnen worden
  • Regressieanalyse:
    • Het regressiemodel
    • R squared
    • Interpretatie regressie
  • Logistische Regressieanalyse (bivariaat en multivariaat):
    • Log-likelihood ratio
    • Wald test
    • Odds-ratio

Statistiek in bredere context

  • Interpretatie uitkomsten
  • Keuzebepaling statische techniek
  • Assumpties en afwijkingen van normaliteit
  • Causaliteit

Vereiste Voorkennis module data analist

Om deze module succesvol af te sluiten wordt van de deelnemer een bepaald kennisniveau verwacht.
– Minimaal afgeronde HBO
– Basiskennis databases
– Basiskennis ICT-systemen
-Basiskennis wiskunde en statistiek

Resultaat na afronding van de module data analist

De opleiding tot data analist draagt bij tot de volgende competenties:

  • Iinzichten in statistische technieken en methoden;
  • De keuze voor een specifieke analyse adequaat kunnen verantwoorden;
  • Grondige kennis van de achtergrond van de behandelde statistische analyses;
  • Analyses verantwoord kunnen toepassen op concrete onderzoeksvragen en de hieruit voortkomende resultaten zelfstandig kunnen interpreteren en rapporteren;
  • Grondige kennis van het managen van de groeiende stroom aan (gestructureerde en ongestructureerde) gegevens en het waarborgen van de kwaliteit hiervan.

Data scientist (26 weken)

De Data Scientist is verantwoordelijk voor geavanceerde statistische analyses en voorspellingen. Hij of zij kan zowel met gestructureerde als ongestructureerde data werken en is verantwoordelijk voor het proactief aanbrengen van nieuwe inzichten uit de data. De data scientist is in staat om zelfstandig algoritmen te gebruiken om bepaalde uitkomsten met grote betrouwbaarheid te voorspellen. In het traineeship leert de data scientist state-of-the-art data science technieken, wanneer welke techniek toe te passen, en het zelfstandig evalueren van de techniek en de voorspelling.

Inleiding data science, datavisualisatie en communicatie

Waar kan statistical learning voor worden gebruikt? We maken kennis met enkele traditionele modellen voor het schatten van numerieke en categoriale variabelen. Ook zullen we ingaan op het inrichten van een data science project, en visualiseren en rapporteren van resultaten.

  • Inleiding statistical learning, modellen en modelfouten, beoordelen van modellen
  • Regressiemethoden en methoden voor classificatie
  • Denken in de data waardeketen, rapporteren en visualisatie

Machine Learning

Machine learning modellen zijn traditioneel vooral bedoeld om schattingen te kunnen maken van individuele gebeurtenissen, zoals: in welke advertentie is de bezoeker van mijn website het meest geïnteresseerd? Met moderne methoden kunnen ML modellen echter ook gebruikt worden voor het ontdekken van verbanden tussen variabelen.

  • Tree models, Random Forest, bagging, boosting, GBM
  • Neurale netwerken, Support vector machines
  • Unsupervised learning
  • Interpretable machine learning: open de ML black box

Tekst data en techniek

Het product van een data science project bestaat uit de data, de resultaten, en de code die is gebruikt. Je leert technieken om dit voor elkaar te krijgen. We gaan in op het structureren, verkennen en analyseren van tekst data, en het inzetten van tekst als voorspeller.

  • Beheer van data science scripts en code
  • Web scraping, text extractie uit verschillende formaten
  • Het maken van een web-api
  • Tekstmining, informatie-extractie, tekstclassificatie en topic models.

Andere datatypen en eigen onderzoek

Niet alle gegevens zijn eenvoudig in tabelvorm te weer te geven. Tijdreeksen en netwerken hebben een eigen structuur waardoor specifieke analysemethoden nodig zijn. Tegelijkertijd biedt die structuur kansen, zoals forecasting (tijdreeksen), of het zoeken van belangrijke elementen (influencers) of gemeenschappen in een netwerk.

  • Tijdreeksen: ontleden, autocorrelatie, forecasting
  • Inleiding netwerk analyse: visualisatie, community detection, centraliteit (influencers)
  • Inleiding werken met Big Data (Spark, Hadoop)
  • Presentatie eigen opdracht

– Presentatie eigen opdracht. Op de pagina Tridata Seminar Data Science vindt u een selectie van de praktijkopdracht die de deelneemers hebben gepresenteerd in de afgelopen vijf jaar.

Vereiste voorkennis en vaardigheden module Data Scientist

– Minimaal afgeronde HBO/WO opleiding
– Beheersing van statistiek en data analyse op het niveau van data analist
– Basiskennis ICT-systemen
– Kennis van en ervaring met verschillende soorten databases
– Kennis van en ervaring met data visualisatie

Ervaring in het programmeren met één of meerdere computertalen zoals R, Matlab, Stata, SAS, Python, SPSS, GAUSS , C, C++, C#, Java, SQL. Tijdens de opleiding zullen opdrachten in R en Python uitgevoerd worden. Voor R zal de RStudio (www.rstudio.com) gebruikt worden, voor Python zal pythonxy (https://code.google.com/p/pythonxy/) gebruikt worden.
Tridata kan eventueel voorafgaand aan de opleiding Data Science een driedaagse “crash course” R of Python verzorgen, voor diegenen die deel willen nemen aan de module Data Scientist maar nog onvoldoende thuis zijn in die taal.

Resultaat na afronding van de module Data Scientist

Na afloop zijn van de opleiding opleiding Data Science is de data scientist in staat om:

  • Bedrijfsgegevens te vertalen in een data analyse probleem;
  • Aan te geven hoe geavanceerde analysetechnieken ingezet kunnen worden om een voorsprong te creëren op concurrenten;
  • Geschikte analytische technieken en tools toepassen om Big Data te analyseren en hieruit inzichten te destilleren;
  • Gevonden resultaten te communiceren aan stakeholders en teamleden in door hen gekozen data visualisaties;
  • Te werken met geavanceerde analysetechnieken;
  • Inzichten te halen uit (Big) Data en nieuwe bedrijfskansen te ontdekken;
  • Door ‘analytics’ onderbouwde, data-gedreven beslissingen te nemen.

De data scientists werken aan een eigen onderzoek dat op de laatste dag zal worden gepresenteerd. Aangezien curisten (met feedback van de docenten) hun eigen onderzoek definieren kunt u dit onderzoek aanpassen aan de tijd die u beschikbaar heeft.
Vanwege de breedte van het onderwerp werkt Tridata bij deze opleiding met drie ervaren docenten met elk hun eigen specialisatie.

Kosten

Twee keer voordeel:
– De opleidingskosten van Tridata zijn BTW-vrij (BTW 0%) en dat scheelt u 21% aan kosten.
– De belastingdienst betaalt mee aan uw opleidingskosten. Het bedrag dat u mag aftrekken als studiekosten en andere scholingsuitgaven, is maximaal € 15000 euro.

Neem voor meer informatie contact op met Tridata over de opleidingskosten.

Waarom de opleidingen volgen bij Tridata?.

– Tridata is het enige instituut wat een door de Vereniging voor Statistiek & Operationele Research (VVS-OR) erkende opleiding statistiek aanbiedt.
– Tridata is het eerste instituut in Nederland dat begonnen (2005) is met het verzorgen van kwantitatieve cursussen en opleidingen zoals Data Science opleidingen, programmeren in R en statistiek.
– Het traineeship Data Scientist, Data Analist en  Data Engineer van Tridata is een multidisciplinaire opleiding die wordt gegeven door verschillende docenten met ruime ervaring op het gebied van statistiek, R programming, Python, statistical modeling en machine learning, statistical software development, tekstanalyse, big data, Tekstmining, datavisualisatie en datamanagement & cloud computing. De docenten hebben diverse wetenschappelijke artikelen gepubliceerd in boeken en tijdschriften. Ook hebben zij talloze R en Python packages geschreven en gepubliceerd. Zij beschikken over aantoonbare didactische vaardigheden.

Planning en locatie

Het traineeship Data Engineer, Data analist en Data Scientist start weer op vrijdag 25 september 2020 in Utrecht en wordt om de vrijdag  gegeven.

Back To Top