Advies & Trainingen

 

Datamanagement

 

Statistische data-analyse

Tridata verzorgt curussen, trainingen, opleidingen en workshops, adviseert, en voert onderzoek uit in opdracht van bedrijven en overheidsinstellingen w.o. universiteiten, hogescholen, ziekenhuizen, gemeenten en ministeries. Onze expertise is statistiek, data-analyse, big data, data science en statistische software.

Opleiding Data Science en Big Data Analytics (Certified)

Beschrijving

Data Science is de wetenschap van het verzamelen, beheren, analyseren en concluderen op basis van data. Om geldige conclusies te kunnen trekken op basis van gegevens kan een data scientist denken in statistiek en algoritmen, data snel verkennen, data visualiseren en analyseren, en waar nodig programmeren en reproduceerbaar werken. Een data scientist kan bovendien de resultaten van een data-analyse communiceren, bijvoorbeeld in een rapport of presentatie met aantrekkelijke visualisaties.

Elk data science project bestaat uit een aantal rondes van verkrijgen, manipuleren, en beheren van data; het analyseren, visualiseren, en modelleren van data; nieuwe vragen formuleren en communiceren van resultaten. Het is daarmee een interdisciplinair vakgebied en een data scientist is typisch breed opgeleid met een specialisatie in een deelgebied, zoals Machine Learning, Programming, of Visualisatie.

Tijdens de 12-daagse opleiding Data Science van Tridata doorloopt een cursist in vier blokken van telkens drie weken verschillende malen deze cyclus van activiteiten. De opleiding geeft een breed overzicht van moderne methoden en technieken zodat cursisten met alle typen werkzaamheden in aanraking komen. De verdieping komt van een eigen opdracht met ondersteuning van onze docenten, waarvan de resultaten aan het eind van de opleiding worden gepresenteerd.

De opleiding bestaat uit het verwerken van voorbereidend materiaal, zoals leeswerk of video’s. Tijdens contactdagen wordt de stof verder eigen gemaakt door (korte) presentaties door docenten en het maken van opdrachten onder leiding van onze deskundige docenten. Ten slotte wordt gewerkt aan een overkoepelende opdracht uit de praktijk die cursisten zelf moeten formuleren. Deze opdracht wordt begeleid door onze docenten en de resultaten worden gepresenteerd aan het eind van de opleiding.

Doelgroep

  • Business Intelligence  en Data analisten die hun kennis willen uitbreiden met Big Data en Data Science vaardigheden
  • Teammanagers van BI en Data analisten
  • Jonge academici die een carrière ambiëren als Data Scientist.
  • Specialisten die hun kennis over het analyseren van Big Data op peil willen brengen.

Vereiste voorkennis en vaardigheden

  • Goede basiskennis van basisstatistiek. Begrippen uit de beschrijvende statistiek zoals mediaan, kwantiel, histogram, en (co)variantie zijn bekend. Bekendheid met statistische modellen zoals regressies is geen vereist maar helpt om het maximale rendement uit de opleiding te halen.
  • Ervaring in het programmeren met één of meerdere computertalen zoals R, Matlab, Stata, SAS, Python, SPSS, GAUSS , C, C++, C#, Java, SQL of vergelijkbaar is een pré. Tijdens de opleiding zullen opdrachten in R en Python uitgevoerd worden. Voor R zal de RStudio (www.rstudio.com) gebruikt worden, voor Python zal pythonxy (https://code.google.com/p/pythonxy/) gebruikt worden.

Doel van de opleiding

Na afloop van de opleiding kunnen deelnemers meedraaien in een Data Science team door:

  • Bedrijfsgegevens te vertalen in een data analyse probleem.
  • Aan te geven hoe geavanceerde analysetechnieken ingezet kunnen worden om een voorsprong te creëren op concurrenten.
  • Geschikte analytische technieken en tools toepassen om Big Data te analyseren en hieruit inzichten te destilleren.
  • Gevonden resultaten te communiceren aan stakeholders en teamleden in door hen gekozen data visualisaties.
  • Hun vaardigheid in R, RStudio, Hadoop en Spark in te zetten voor data analyses.

De cursisten werken aan een eigen onderzoek dat op de laatste dag zal worden gepresenteerd. Aangezien curisten (met feedback van de docenten) hun eigen onderzoek definieren kunt u dit onderzoek aanpassen aan de tijd die u beschikbaar heeft.
Vanwege de breedte van het onderwerp werkt Tridata bij deze opleiding met drie ervaren docenten met elk hun eigen specialisatie.

Inhoud

 De opleiding bestaat uit vier blokken van elk drie weken. Het laatste blok wordt afgesloten met een middag waarin deelnemers hun eigen onderzoek presenteren. Daarnaast wordt in elk blok minstens één casus uitgewerkt, van inlezen en opschonen van gegevens, tot analyseren visualiseren van data en resultaten.

Blok 1: Inleiding, visualisatie, en communicatie
Waar kan statistical learning voor worden gebruikt? We maken kennis met enkele traditionele modellen voor het schatten van numerieke en categoriale variabelen. Ook zullen we ingaan op het inrichten van een science project, en visualiseren en rapporteren van resultaten.

- Inleiding statistical learning, modellen en modelfouten, beoordelen van modellen
- Regressiemethoden en methoden voor classificatie
- Denken in de data waardeketen, rapporteren en visualisatie

Blok 2: Machine Learning
Machine learning modellen zijn traditioneel vooral bedoeld om schattingen te kunnen maken van individuele gebeurtenissen, zoals: in welke advertentie is deze bezoeker van mijn website het meest geïnteresseerd? Met moderne methoden kunnen ML modellen echter ook gebruikt worden voor het ontdekken van verbanden tussen variabelen.

- Tree models, Random Forest, bagging, boosting, GBM
- Neurale netwerken, Support vector machines
- Unsupervised learning
- Interpretable machine learning, open de Machine Learning black box

Blok 3: Tekst data en techniek
Het product van een data science project bestaat uit de data, de resultaten, en de code die is gebruikt.  In dit blok gaan we in op software engineering methoden die relevant zijn voor data science. Inhoudelijk wordt ingegaan op het structureren, visualiseren en analyseren van tekst data.

- Beheer van data science scripts en code
- Web scraping, text extractie uit verschillende formaten
- Het bouwen van een web API
- Tekstmining, informatie-extractie, tekstclassificatie, en topic models.

Blok 4: Andere datatypen en presentatie eigen onderzoek
Niet alle gegevens zijn eenvoudig in de vorm van records (relationele data) te weer te geven. Tijdreeksen en netwerken hebben een eigen structuur waardoor specifieke analysemethoden nodig zijn. Tegelijkertijd biedt die structuur kansen, zoals forecasting bij tijdreeksen, of het zoeken van belangrijke elementen zoals influencers of gemeenschappen in een netwerk.

- Tijdreeksen: ontleden, autocorrelatie, forecasting
- Inleiding netwerk analyse: visualisatie, community detection, centraliteit
- Inleiding werken met Big Data (Spark, Hadoop)
- Presentatie eigen opdracht. Op de pagina Tridata Seminar Data Science vindt u een selectie van de praktijkopdracht die de deelneemers hebben gepresenteerd in de afgelopen vijf jaar.

Kosten en inschrijving

De kosten van de 12-daagse opleiding Data Science bedragen € 6900. De kosten van de opleiding zijn vrijgesteld van BTW (BTW-tarief 0%) en is inclusief boeken (o.a. An Introduction to Statistical Learning) en opleidingmateriaal, deelnamecertificaat, koffie / thee en lunches.

Cursusdata (Utrecht)

Blok 1: 9-okt, 16-okt,  23-okt 2019
Blok 2:  6-nov, 13-nov, 20-nov 2019
Blok 3: 4-dec, 11-dec, 18-dec 2019
Blok 4:  8-jan, 15-jan, 22-jan 2020

Certificering

Deelnemers krijgen een deelname certificaat van Tridata. Na afloop kunnen de deelnemers eveneens deelnemen aan het INFORMS examen voor de internationaal erkende titel Certified Analytics Professional (CAP). De daaraan verbonden kosten komen voor de rekening van de deelnemer.
*N.B. Voor CAP certificering is minimaal 3 jaar relevante werkervaring vereist. 

Cursuslocatie Utrecht

Europalaan 400, 5e verdieping
3526 KS Utrecht

In-company training

Deze opleiding kan ook in-company worden gegeven. In overleg past tridata de inhoud aan uw wensen. Voor meer informatie kunt u contact met ons opnemen.

Waarom de opleiding volgen bij Tridata?.

- Tridata is het enige instituut wat een door de Vereniging voor Statistiek & Operationele Research (VVS-OR) erkende opleiding statistiek aanbiedt.
- Tridata is het eerste instituut in Nederland dat begonnen is met het verzorgen van opleidingen van Data Science opleidingen.
- De data science opleiding van tridata is een multidisciplinaire opleiding die wordt gegeven door drie verschillende docenten met ruime ervaring op het gebied van R, statistical modeling en machine learning, statistical software development, tekstanalyse, big data, Tekstmining, datavisualisatie en datamanagement & cloud computing. De docenten hebben diverse wetenschappelijke artikelen gepubliceerd in boeken en tijdschriften. Ook hebben zij talloze R packages geschreven en gepubliceerd. Zij beschikken over aantoonbare didactische vaardigheden.

De Docenten

Dr. M. (Mark) van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Na zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, python,  en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipedia paginas. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. E(Edwin) de Jonge Studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren the hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS met als specialiteit statistical computing and modeling, data management en data visualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, javascript, python en R. In die laatste taal ontwikkelde hij een package wat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Edwin en Mark zijn auteur van het boek 'Learning R Statistical Computing with Rstudio' (Packt publishing, 2012) en werken momenteel, aan een boek over 'Statistical Data Cleaning with Applications in R' (te verschijnen bij Wiley). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “an introduction to data cleaning with R”. Zij waren ook keynote speakers op useR conferences in Bucharest, Los Angeles, Toulouse, Marrakech, Madrid ... 

Dr. K. (Karin) Groothuis-Oudshoorn, is an Assistant Professor and Biostatistician at University of Twente, the Netherlands. Dr. Groothuis-Oudshoorn completed her PhD at the University of Utrecht, specializing in mathematical statistics. After that she worked at several applied research institutes as a (bio)statistician. In 2009, she joined the department of Health Technology and Services Research at the University of Twente where her research focus is on survival regression models, statistical learning and design and statistical analysis of preferences. She teaches courses on data science, statistical learning and medical statistics for several educational programs at the University of Twente. Next to that she is working since 2011 as a statistical consultant and teacher for Tridata.

Dr. J.(Joris) de Wind promoveerde in 2014 aan de Universiteit van Amsterdam (Cum Laude). In zijn proefschrift heeft hij verschillende nieuwe econometrische technieken ontwikkeld en toegepast op macroeconomische vraagstukken. Joris heeft in de periode 2008-2017 verschillende economische modellen ontwikkeld voor zowel beleidsanalyses en het maken van (korte-termijn) voorspellingen, eerst bij De Nederlandsche Bank en later bij het Centraal Planbureau. In 2017 heeft Joris de overstap gemaakt naar de data science discipline en is momenteel als data scientist werkzaam bij ING Nederland. Sinds medio 2018 geeft Joris diverse data science cursussen namens Tridata, zowel in R en ook met Python.

Dr. ir. J.(Jan) van der Laan studeerde af op het gebied van signaalverwerking bij de de faculteit technische natuurkunde aan de Technische Universiteit Delft. Na zijn promotie op het gebied van medical physics is hij als statistisch onderzoeker werkzaam bij het CBS. Op het CBS houdt hij zich onder andere bezig met statistische analyse en regressietechnieken, data visualisatie en het verwerken en koppelen van grote bestanden. Over deze onderwerken publiceert hij op conferenties en peer reviewed journals. Jan is expert op het gebied van  meerdere programmeertalen waaronder C++, Javascript, D3.js en R. Hij heeft bijdragen geleverd aan meerdere R packages op CRAN. Jan werkt sinds 2015 als consultant en docent bij Tridata.

Dr. D. (Daniël) van der Palm: Upon completion of his PhD thesis on latent class models for density estimation, Daniël has worked for companies such as Center Data and Statistics Netherlands. Currently he works as a research scientist at Cito, the Dutch national institute for educational measurement and he is a teacher and consultant for Tridata. Daniël specializes in the development and implementation of algorithms in the context of data science and statistics (C++/C#/R/Python). He has extensive experience with developing and managing desktop/web applications and cloud solutions (SaaS / PaaS).

Wij werken o.a. voor:

Autoriteit-consumetn-markt.jpgErasmus-universiteit.jpgErasmusMC.jpgTNO.jpgalgemene-rekenkamer.jpgbelastingdienst.jpg