Opleiding Data Science met Python (Certified)

Beschrijving Opleiding Data Science met Python

Tijdens de 12-daagse Opleiding Data Science met Python doorloopt de cursist in vier blokken van telkens drie weken verschillende malen deze cyclus van activiteiten. De Opleiding Data Science geeft een breed overzicht van moderne methoden en technieken, zodat cursisten met alle typen werkzaamheden in aanraking komen. De verdieping komt van een eigen opdracht met ondersteuning van onze docenten, waarvan de resultaten aan het eind van de Opleiding Data Science worden gepresenteerd.
Wil je liever de opleiding data science in R volgen, meld je dan aan voor de Opleiding Data Science using R.

Leervormen Opleiding Data Science

De Opleiding Data Dcience en Big Data Analytics bestaat uit het verwerken van voorbereidend materiaal, zoals leeswerk of video’s. Tijdens de contactdagen wordt de stof verder eigen gemaakt door (korte) presentaties van onze deskundige docenten en het maken van opdrachten onder leiding van deze docenten. Ten slotte wordt er gewerkt aan een overkoepelende opdracht uit de praktijk die cursisten zelf moeten formuleren. Deze opdracht wordt begeleid door onze docenten en de resultaten worden gepresenteerd aan het eind van de Opleiding Data Science.
Op de pagina Tridata Seminar Data Science vind je een selectie van de praktijkopdrachten die de deelnemers hebben gepresenteerd in de afgelopen vijf jaar.

Doel van de Opleiding Data Science en Big Data Analytics using Python (Certified)

Na afronding van de opleiding kunnen deelnemers meedraaien in een data science team door:

Bedrijfsgegevens te vertalen in een data-analyseprobleem;
Aan te geven hoe geavanceerde analysetechnieken ingezet kunnen worden om een voorsprong te creëren op concurrenten;
Geschikte machinelearningtechnieken en -tools toe te passen om Big Data te analyseren en hieruit inzichten te destilleren;
Gevonden resultaten te communiceren aan stakeholders en teamleden in door hen gekozen data visualisaties;
Hun vaardigheid in Python, scikit-learn, Jupyter notebooks en Spark in te zetten voor data analyses.

Doelgroep Opleiding Data Science en Big Data Analytics met Python

Business Intelligence en data-analisten die hun kennis willen uitbreiden met Big Data en Data Science vaardigheden
Teammanagers van BI en data- analisten
Jonge academici die een carrière ambiëren als data scientist
Specialisten die hun kennis over het analyseren van Big Data op peil willen brengen

Vereiste voorkennis en vaardigheden

Om de Opleiding Data Science succesvol af te sluiten wordt van de deelnemer een bepaald kennisniveau verwacht:

- Minimaal afgeronde HBO/WO opleiding;
- Goede basiskennis van basisstatistiek: begrippen uit de beschrijvende statistiek zoals centrummaten, spreidingsmaten, meetniveaus, en (co)variantie zijn bekend;
- Bekendheid met statistische modellen zoals regressies is geen vereiste maar zal wel helpen om het maximale rendement uit de opleiding te halen;
- Ervaring in het programmeren met één of meerdere computertalen zoals R, Matlab, Stata, SAS, Python, SPSS, GAUSS , C, C++, C#, Java, SQL of vergelijkbare computertalen is een pré.

Tijdens de opleiding zullen er opdrachten in Python uitgevoerd worden. Wil je liever aan de slag met R, meld je dan aan voor de Opleiding Data Science en Business Data Analytics using R.

Programma Data Science en Big Data Analytics

De Opleiding Data Science en Big Data Analytics using Python bestaat uit vier blokken van elk drie weken. Het laatste blok wordt afgesloten met een middag waarin deelnemers hun eigen onderzoek presenteren. Daarnaast wordt in elk blok minstens één casus uitgewerkt, van het inlezen en opschonen van gegevens, tot het analyseren en visualiseren van data en resultaten.

Blok 1: Inleiding, visualisatie, en communicatie

Waar kan statistical learning voor worden gebruikt? We maken kennis met enkele traditionele modellen voor het schatten van numerieke en categoriale variabelen. Ook zullen we ingaan op het inrichten van een datascienceproject, en het visualiseren en rapporteren van resultaten.

– Inleiding Python
– Inleiding statistical learning, modellen en modelfouten, beoordelen van modellen
– Regressiemethoden en methoden voor classificatie
– Denken in de datawaardeketen, rapporteren en visualisatie

Blok 2: Predictive Machine Learning in Python

In dit blok richten we ons op het gebruik van Predictive Machine Learning in Python. Cursisten leren hoe ze moderne methoden kunnen toepassen om Machine Learning modellen in te zetten voor het voorspellen van individuele gebeurtenissen, zoals bijvoorbeeld welke advertentie een bezoeker van een website het meest interessant vindt. Daarnaast kunnen deze modellen ook gebruikt worden voor andere toepassingen, zoals het verbeteren van de prestaties van studenten, het voorspellen van voorraden van producten, het verbeteren van leefomstandigheden in bepaalde wijken en groepen en het verbeteren van de kwaliteit en effectiviteit van zorg.

De volgende onderwerpen zullen worden behandeld:

Tree models: Modellen gebaseerd op beslisbomen die beslissingen nemen op basis van voorwaardelijke regels.
Random Forest: Een ensemblemethode die meerdere beslisboommodellen combineert voor nauwkeurigere voorspellingen.
Bagging: Een techniek die de voorspellende kracht van verschillende modellen verbetert door ze op verschillende subsets van gegevens toe te passen en hun gemiddelde te nemen.
Boosting: Een algoritme dat sequentieel zwakke modellen verbetert door de nadruk te leggen op foutief voorspelde exemplaren in eerdere modellen.
GBM (Gradient Boosting Machine): Een boosting-algoritme dat gebruikmaakt van supervised machine learning techniek om de voorspellende nauwkeurigheid te verbeteren.
Support vector machines (SVM): Een supervised learning-model dat zich richt op het vinden van de best mogelijke scheidingslijn tussen verschillende klassen in gegevenspunten, om zo nauwkeurige classificatie te bieden.
Unsupervised learning: Machine learning zonder vooraf bekende uitvoerlabels; het identificeert patronen in gegevens zonder specifieke doelen.
Clustering: Een techniek binnen supervised learning waarbij gegevenspunten in groepen (clusters) worden verdeeld op basis van hun onderlinge gelijkenis of afstand.

Blok 3: Tekstmining en tekstanalyse in Python

In dit blok richten we ons op de technieken voor tekstmining en tekstanalyse in Python. Cursisten krijgen inzicht in hoe ze tekstdata kunnen structureren, classificeren, visualiseren en analyseren, zowel uit opgeslagen documenten, zoals jaarverslagen, als antwoorden van respondenten uit open enquêtevragen, alsmede via web scraping. Bovendien leren cursisten hoe ze de code en scripts van hun data science projecten kunnen beheren.
De volgende onderwerpen zullen worden behandeld:

Beheer van data science scripts en code
Web scraping, text extractie uit verschillende formaten
Tekstmining, informatie-extractie, tekstclassificatie, sentimentanalyse

Blok 4: Analyse van tijdreeksen en interpretabele machine learning, presentatie eigen onderzoek in Python

In dit blok zullen we dieper ingaan op het analyseren van tijdreeksen en interpretabele machine learning.
Tijdreeksen hebben een specifieke structuur die specifieke analysemethoden vereisen, zoals het ontleden en voorspellen van trends en patronen. Daarnaast zullen we ook kennismaken met deep learning met Keras en hoe we interpretabele machine learning kunnen toepassen. Ten slotte zal er aandacht worden besteed aan het presenteren van de eigen opdracht. De deelnemers zullen een onderwerp naar keuze presenteren waar ze gedurende de cursus aan hebben gewerkt.
De volgende onderwerpen zullen worden behandeld:

Analyse van tijdreeksen: ontleden, autocorrelatie, forecasting
Inleiding deep learning met Keras
Interpretable machine learning (XAI)
Presentatie eigen opdracht.

Startdata

5 april 2024
4 oktober 2024

Planning

Startdatum 5 april 2024
Blok 1: 5 april, 12 april, 19 april 2024
Blok2: 26 april, 10 mei, 17 mei 2024
Blok3: 24 mei, 31 mei, 7 juni 2024
Blok4: 14 juni, 21 juni, 5 juli 2024 (seminar + presentatie eindopdracht)

Startdatum 4 oktober 2024
Blok 1: 4 oktober, 11 oktober, 18 oktober 2024
Blok 2: 25 oktober, 1 november, 8 november 2024
Blok 3: 15 november, 22 november, 29 november 2024
Blok 4: 6 december, 13 december, 20 december 2024 (seminar + presentatie eindopdracht)

Lestijden

De lestijden zijn van 9:15 tot 16:00, met uitloop tot uiterlijk 16:15.

Studiebelasting

De cursus duurt 12 dagen (één dag per week). Per week kun je rekenen op 8 uur studielast, op de cursusdag zelf. Daarnaast ben je in je vrije tijd per week nog 2-4 uur bezig met de voorbereiding en verwerking van de cursusdag. Dit is afhankelijk van de intensiviteit van de lesstof en jouw eigen opleidingsachtergrond.

Aantal deelnemers

Gelet op het intensieve en interactieve karakter van de Opleiding Certified Data Science worden er maximaal tien deelnemers toegelaten.

Cursuslocatie Utrecht

Europalaan 400, 5e verdieping
3526 KS Utrecht

Certificering

Deelnemers krijgen een deelnamecertificaat van Tridata. Na afloop kunnen de deelnemers eveneens deelnemen aan het INFORMS examen voor de internationaal erkende titel Certified Analytics Professional (CAP). De daaraan verbonden kosten komen voor de rekening van de deelnemer.
*N.B. Voor CAP certificering is minimaal 3 jaar relevante werkervaring vereist.

Kosten en inschrijving

De kosten van de 12-daagse opleiding Data Science en Big Data Analytics using Python bedragen € 6900. De kosten van de opleiding zijn vrijgesteld van BTW (BTW-tarief 0%) en is inclusief boeken en opleidingmateriaal, boeken, koffie/thee en lunches.

In-company en maatwerk

De Opleiding Data Science en Big Data Analytics using Python kan ook in-company worden gegeven. Een in-company training, ook wel in-house training of bedrijfstraining, is een training die binnen jouw organisatie plaatsvindt. Hebben meerdere collega’s in jouw organisatie dezelfde leervraag? Dan is een in-company training zeer geschikt. Onze trainingsprogramma’s stemmen we af op de leerwensen en –doelen van jou en je collega’s. Voor meer informatie kunt u contact met ons opnemen.

Waarom de opleiding volgen bij Tridata?

– Tridata is het enige instituut dat een door de Vereniging voor Statistiek & Operationele Research (VVS-OR) erkende opleiding statistiek aanbiedt.
– Tridata is het eerste instituut in Nederland dat begonnen is met het verzorgen van datascienceopleidingen.
– De Opleiding Data Science van Tridata is een multidisciplinaire opleiding die wordt gegeven door drie verschillende docenten, met ruime ervaring op het gebied van Python, R, statistical modeling en machine learning, statistical software development, tekstanalyse, big data, tekstmining, datavisualisatie en datamanagement & cloud computing.

Docenten

Gezien de breedte van de onderwerpen, wordt de opleiding Data Science en Big Data Analytics gegeven door drie ervaren docenten met elk hun eigen specialisatie.

De datasciencedocenten van Tridata zijn professionele datawetenschappers. Zij hebben diverse wetenschappelijke artikelen gepubliceerd in boeken en tijdschriften en kunnen vloeiend schakelen tussen de verschillende thema’s van Data Science, Machine Learning en Artificial Intelligence. Zij beschikken over aantoonbare didactische vaardigheden.

Dr. Mark van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Sinds zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS, met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, Python, en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipediapagina’s. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. Edwin de Jonge studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren te hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS, met als specialiteit statistical computing and modeling, datamanagement en datavisualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, Javascript, Python en R. In die laatste taal ontwikkelde hij een package dat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Mark van der Loo en Edwin de Jonge zijn auteurs van de boeken “Learning RStudio for R Statistical Computing” (Packt Publishing, 2012) en “Statistical Data Cleaning with Applications in R” (Wiley, 2018). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “An introduction to data cleaning with R”. Zij waren ook keynote speakers op useR conferenties in Boekarest, Los Angeles, Toulouse, Marrakesh, Madrid, etc.

Dr. J.(Joris) de Wind promoveerde in 2014 aan de Universiteit van Amsterdam (Cum Laude). In zijn proefschrift heeft hij verschillende nieuwe econometrische technieken ontwikkeld en toegepast op macro-economische vraagstukken. Joris heeft in de periode 2008-2017 verschillende economische modellen ontwikkeld voor beleidsanalyses en voor het maken van (kortetermijn)voorspellingen, eerst bij De Nederlandsche Bank en later bij het Centraal Planbureau. In 2017 heeft Joris de overstap gemaakt naar de datasciencediscipline en is momenteel als data scientist werkzaam bij ING Nederland. Sinds medio 2018 geeft Joris diverse cursussen over data science namens Tridata, zowel in R en ook met Python.