Opleiding Data Science en Big Data Analytics (Certified)

Beschrijving

De opleiding Data Science and Big Data Analytics geeft een gedegen kennis in Data Science methoden en technieken, zodat deelnemers kunnen meedraaien in Big Data en analyse projecten. Het geeft een uitbreid overzicht over de eigenschappen van Big Data, de uitdagingen en de kansen die het biedt. De cursisten krijgen verschillende eenvoudige tot geavanceerde analysetechnieken en passen deze ook toe in opdrachten. Op de pagina Tridata Data Science Seminar, vindt u een selectie van de praktijkopdrachten die de deelnemers hebben uitgevoerd en gepresenteerd.

Doelgroep

  • Business Intelligence  en Data analisten die hun kennis willen uitbreiden met Big Data en Data Science vaardigheden
  • Teammanagers van BI en Data analisten
  • Jonge academici die een carrière ambiëren als Data Scientist.
  • Specialisten die hun kennis over het analyseren van Big Data op peil willen brengen.

Vereiste voorkennis en vaardigheden

  • Goede basiskennis van basisstatistiek. Begrippen uit de beschrijvende statistiek zoals mediaan, kwantiel, histogram, en (co)variantie zijn bekend. Ook wordt enige bekendheid met statistische modellen zoals regressie verondersteld.
  • Ervaring in het programmeren met één of meerdere computertalen zoals R, Matlab, Stata, SAS, Python, GAUSS , C, C++, C#, Java, SQL of vergelijkbaar is een pré. Tijdens de opleiding zullen opdrachten in R en Python uitgevoerd worden. Voor R zal de RStudio (www.rstudio.com) gebruikt worden, voor Python zal pythonxy (https://code.google.com/p/pythonxy/) gebruikt worden.

Doel van de opleiding

Na afloop van de opleiding kunnen deelnemers meedraaien in een Data Science team door:

  • Bedrijfsgegevens te vertalen in een data analyse probleem.
  • Aan te geven hoe geavanceerde analysetechnieken ingezet kunnen worden om een voorsprong te creëren op concurrenten.
  • Geschikte analytische technieken en tools toepassen om Big Data te analyseren en hieruit inzichten te destilleren.
  • Gevonden resultaten te communiceren aan stakeholders en teamleden in door hen gekozen data visualisaties.
  • Hun vaardigheid in R, RStudio, Hadoop en Spark in te zetten voor data analyses.

De cursisten werken aan een eigen onderzoek dat op de laatste dag zal worden gepresenteerd. Aangezien curisten (met feedback van de docenten)
hun eigen onderzoek definieren kunt u dit onderzoek aanpassen aan de tijd die u beschikbaar heeft.
Vanwege de breedte van het onderwerp werkt Tridata bij deze opleiding met drie ervaren docenten met elk hun eigen specialisatie.

Inhoud

Introductie Big Data
Inleiding in het  analyseren van Big Data

  • Overzicht Big Data
  • Data Scientist, wat is dat?
  • Big Data project opbouw
  •     Exploratie
    •     Data cleaning
    •     Statistische inzichten (inferenties)
    •     Resultaten communiceren
    •     In productie nemen.

Analysetechnieken mbv R

  • Inleiding in R
    • Analyse en Exploratie van Data
    • Statistische technieken voor het modeleren en evalueren.

Machine Learning

  • Random Forest
  • Decision Trees
  • Naive Bayes
  • Support Vector Machines
  • Neural Networks
  • Clustering: k-means/Nearest Neighbour/Minimum Distance Clustering
  • Motivation & Applications of Machine Learning

Regression Techniques

  • Lineaire en logistische regressie
  • Classificatie en clustering methoden
  • Discrete choice
  • Tijdreeksanalyse
  • Tekstanalyse o. a. social media, columns en blogs.

Data Mining Techniques

  • Analyse van ongestructureerde data
  • Hadoop en MapReduce
  • Spark, Streaming Analysis, Online Analysis

Resultaten communiceren en presenteren

  • Identificatie van relevante resultaten
  • Data visualisatie technieken
  • Report generation

Praktijkopdracht uitwerken en presenteren waarbij alle stappen aan bod komen.

Kosten en inschrijving

De kosten van de 10-daagse opleiding Data Science bedragen €6500 ( €5700). De actie is tijdelijk en gaat in op maandag 7 mei 0:00 uur en duurt tot en met tot en met maandag 9 juli 2018 0:00 uur.  De actie geldt voor alle data science opleidingen die gepland zijn tussen 1 augustus en 31 december 2018. De kosten van de opleiding zijn vrijgesteld van BTW (BTW-tarief 0%) en is inclusief boeken en opleidingmateriaal, deelnamecertificaat, koffie / thee en lunches.

Cursusdata (Utrecht)

23, 30 augustus, 6, 13, 20, 27 september, 4, 11, 18, 25 oktober 2018 (Utrecht)
17, 24, 31 oktober, 7, 14, 21, 28  november, 5, 12, 19 december 2018 (Utrecht)

Certificering

Deelnemers krijgen een deelname certificaat van Tridata. Na afloop kunnen de deelnemers eveneens deelnemen aan het INFORMS examen voor de internationaal erkende titel Certified Analytics Professional (CAP). De daaraan verbonden kosten komen voor de rekening van de deelnemer.
*N.B. Voor CAP certificering is minimaal 3 jaar relevante werkervaring vereist. 

Cursuslocaties

Laan Copes van Cattenburch 62, Den Haag/ Europalaan 400, Utrecht

In-company training

Deze opleiding kan ook in-company worden gegeven. In overleg past tridata de inhoud aan uw wensen. Voor meer informatie kunt u contact met ons opnemen.

Waarom de opleiding volgen bij Tridata?.

- Tridata is het enige instituut wat een door de Vereniging voor Statistiek & Operationele Research (VVS-OR) erkende opleiding statistiek aanbiedt.
- De data science opleiding van tridata is een multidisciplinaire opleiding die wordt gegeven door drie verschillende docenten met ruime ervaring op het gebied van R, statistical modeling en machine learning, statistical software development, tekstanalyse, big data, Tekstmining, datavisualisatie en datamanagement & cloud computing. De docenten hebben diverse wetenschappelijke artikelen en boeken geschreven.

De Docenten

Dr. M. (Mark) van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Na zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, python,  en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipedia paginas. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. E(Edwin) de Jonge Studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren the hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS met als specialiteit statistical computing and modeling, data management en data visualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, javascript, python en R. In die laatste taal ontwikkelde hij een package wat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Edwin en Mark zijn auteur van het boek 'Learning R Statistical Computing with Rstudio' (Packt publishing, 2012) en werken momenteel, aan een boek over 'Statistical Data Cleaning with Applications in R' (te verschijnen bij Wiley). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “an introduction to data cleaning with R”.

Dr. ir. J.(Jan) van der Laan
Dr. ir. J.(Jan) van der Laan studeerde af op het gebied van signaalverwerking bij de de faculteit technische natuurkunde aan de Technische Universiteit Delft. Na zijn promotie op het gebied van medical physics is hij als statistisch onderzoeker werkzaam bij het CBS. Op het CBS houdt hij zich onder andere bezig met statistische analyse en regressietechnieken, data visualisatie en het verwerken en koppelen van grote bestanden. Over deze onderwerken publiceert hij op conferenties en peer reviewed journals. Jan is expert op het gebied van  meerdere programmeertalen waaronder C++, Javascript, D3.js en R. Hij heeft bijdragen geleverd aan meerdere R packages op CRAN. Jan werkt sinds 2015 als consultant en docent bij Tridata.