5 daagse cursus R: Statistical Programming with R

Doel

De R cursus vormt een eerste inleiding in de zeer populaire statistische software pakketten R en RStudio. Na deze cursus kan de cursist zelfstandig een aantal statistische analyses uitvoeren, resultaten beoordelen en visualiseren, en rapporteren met R en RStudio. R is op dit moment één van de meest geavanceerde en flexibele statistische programma’s en is bovendien open source (gratis).

Inhoud

Tridata hecht er aan om cursisten tijdens de cursussen hands-on ervaring op te laten doen. Dus op basis van gedegen theorie meteen toepassen in de praktijk. Elke dag bestaat daarom voor ongeveer de helft uit oefeningen onder begeleiding van onze ervaren docenten. De cursist heeft de mogelijkheid om slechts 3 dagen te volgen.

Dag 1: Kennismaking met R en beschrijvende statistiek.
Inleiding R; hulp krijgen; de R community; packages.
Werken met de commandline en RStudio.
Rekenen met vectoren (kolommen) en data.frames (tabeldata)
Lezen en schrijven van tekstbestanden
Nieuwe variabelen uitrekenen
Beschrijvende statistiek
Eenvoudige plots: boxplot, cirkeldiagram, histogram...
 
Dag 2: Data management en aggregatie
Selecteren van rijen en kolommen met dplyr en de 'pipe' operator.
Hercoderen en hernoemen van variabelen
Herschikken van data ('kantelen' van rijen en kolommen mbv package rehape2)
Koppelen en sorteren
Data groeperen en aggregeren
Random sampling van records
Inleiding tekst variabelen zoeken, vervangen, splitsen
Datum en tijd variabelen: conversie van/naar tekst, rekenen met data.

Dag 3: Meer over R; toetsen van verschillen over groepen en relaties tussen variabelen.
RStudio projecten: hoe beheer je een analyseproject?
Meer over R: functies, omgaan met missing values en bijzondere waarden, indexeren.
De t-toets: zijn twee groepen significant verschillend?
Tabellen en marginalen uitrekenen
De Chi-kwadraat-toets: zijn twee variabelen onafhankelijk?
 
Dag 4: Lineaire regressie; datavisualisatie; rapporten genereren.
Inleiding lineaire regressie met R:
Eenvoudige en multipele lineaire regressie; interpretatie van de resultaten
Beoordeel de kwaliteit van het model: diagnostische plots; p-waarde, R-kwadraatwaarde.
Automatische modelselectie (wat is het beste lineaire model?) met R.

Inleiding datavisualisatie:
datavisualisatie versus informatievisualisatie
Overzicht van verschillende typen plots: wanneer welke te gebruiken?
Gebruik van schalen, kleuren, en andere grafische aspecten.
Publicatiewaardige plots met R; export van plots.
Automatisch word, html of pdf rapporten genereren van je analyse.

Dag 5: Meer statistische modellen en plotten op kaarten
Schatten van de kans op een gebeurtenis: logistische regressie met R
Model schatten; interpretatie en visualisatie van de resultaten.
Voorspellen van een waarde zonder lineair model: beslisbomen in R (CART modellen)
Model schatten; interpretatie en visualisatie van de resultaten
Inleiding tijdreeksanalyse met R
map format en coordinaatsysteem
point plot
choropleeth plot.

Doelgroep

Deze cursus is bedoeld voor personen met enige kennis van statistiek en statistische software, die ervaring willen opdoen met dit zeer populaire, en bovendien gratis, statistische pakket.

Vereiste voorkennis

Enige bekendheid met basis statistiek wordt voorondersteld.

Tools

De cursus werkt met de meest recente versie van R en RStudio.

Cursusdata

28-feb, 7-mrt, 14-mrt, 21-mrt, 28-mrt 2018 (Utrecht)
3-apr, 10-apr, 17-apr, 24-apr, 1-mei 2018 (Utrecht)
16-mei, 23-mei, 30-mei, 6-jun, 13-jun 2018 (Utrecht)
29-mei, 5-jun, 12-jun, 19-jun, 26-jun 2018 (Utrecht)

17-aug, 24-aug, 31-aug, 7-sep, 14-sep 2018 (Utrecht)
18-sep, 25-sep, 2-okt, 9-okt, , 16-okt  2018 (Utrecht)
23-okt, 30-okt, 6-nov, 13-nov, 20-nov 2018 (Utrecht)
20-nov, 27-nov, 4-dec, 11-dec, 18-dec 2018 (Utrecht)

Kosten en inschrijving:

De kosten van de 5-daagse cursus bedragen € 2750. Als u ervoor kiest om slechts drie dagen te volgen dan bedragen de kosten € 1650. De cursusprijs is vrijgesteld van BTW (BTW-tarief 0%) en is inclusief cursusmateriaal, deelnamecertificaat, koffie / thee en lunches.

In-company training

Deze training kan in huis (bij uw organisatie) worden gegeven. In overleg past tridata de cursus  aan de  wensen van de cursisten. Voor meer informatie kunt u contact met ons opnemen.

Plaats

Laan Copes van Cattenburch 62, Den Haag

Waarom de cursus volgen bij Tridata?.

- Tridata is het enige instituut wat een door de Vereniging voor Statistiek & Operationele Research (VVS-OR) erkende opleiding statistiek aanbiedt.
- De R cursus van tridata is een multidisciplinaire cursus die wordt gegeven door drie verschillende docenten met ruime ervaring op het gebied van R, statistical modeling en machine learning, statistical software development, tekstanalyse, Tekstmining, datavisualisatie en datamanagement.

- Tridata heeft samen met de faculteit economie/econometrie van de Erasmus Universiteit,  R geïntroduceerd in Nedeland.

De Docenten

Dr. Mark van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Na zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, python,  en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipedia paginas. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. Edwin de Jonge Studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren the hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS met als specialiteit statistical computing and modeling, data management en data visualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, javascript, python en R. In die laatste taal ontwikkelde hij een package wat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Edwin en Mark zijn auteur van het boek 'Learning R Statistical Computing with Rstudio' (Packt publishing, 2012) en werken momenteel, aan een boek over 'Statistical Data Cleaning with Applications in R' (te verschijnen bij Wiley). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “an introduction to data cleaning with R”.

Dr. ir. J.(Jan) van der Laan
Dr. ir. J.(Jan) van der Laan studeerde af op het gebied van signaalverwerking bij de de faculteit technische natuurkunde aan de Technische Universiteit Delft. Na zijn promotie op het gebied van medical physics is hij als statistisch onderzoeker werkzaam bij het CBS. Op het CBS houdt hij zich onder andere bezig met statistische analyse en regressietechnieken, data visualisatie en het verwerken en koppelen van grote bestanden. Over deze onderwerken publiceert hij op conferenties en peer reviewed journals. Jan is expert op het gebied van  meerdere programmeertalen waaronder C++, Javascript, D3.js en R. Hij heeft bijdragen geleverd aan meerdere R packages op CRAN. Jan werkt sinds 2015 als consultant en docent bij Tridata.