Tridata Seminar Data Science

Tridata Seminar Data Science

Na afloop van de opleiding wordt een Data Science Seminar. Tijdens dit seminar zullen dertig data scientists van onze Data Science en Big Data Analytics opleiding hun eigen onderzoek presenteren. De uitgevoerde onderzoeken zijn onderdeel van de opleiding en bestrijken inhoudelijk een breed scala aan toepassingen. Hieronder, vindt u een selectie van de honderden onderwerpen die de deelneemers hebben gepresenteerd in de afgelopen vijf jaar.

  • Forecasten van aantal plaatsingen voor uitzendbureau
  • Voorspellen van doorlooptijd van hypotheekaanvragen
  • Forecasting the number of public transport travalers in Amsterdam
  • Forecasten van aantallen inkomende telefoongesprekken in call center
  • Classificeren van producten in categorieën op prijsvergelijkingssite
  • Tijdserie analyse van korte termijn rendement aandelenmarkten
  • Leer van je klanten:  Daartoe zijn modellen onderzocht die de kans schatten dat een polishouders een nieuwe polis afsluit.
  • Voorspellen van temperatuur en visualisatie van het weer.
  • Gebruik van enkele methoden op tweedehands auto data
  • Voorspellen stop productgroep (herhaalaankoopo) afname bij Bidfood (voorheen DailyXL).
  • Determining operating modes of a Fast Crew Supply vessel
  • Verzekeringsfraude detecteren met behulp van Marktplaats.nl
  • Nieuws sentiment als financiële stabiliteit indicator
  • het voorspellen van koersschommelingen op basis van jaarverslagen
  • Klantsignalen & klantgedrag: : in hoeverre zijn waardering & sentiment gemeten in CTO bepalend voor klantgedrag?
  • Default offices, departments en contactpersonen in de Freight Forwarding applicatie
  • Gedrag van klanten van sportscholen voorspellen.
  • Voorspellen afgeschreven leningen
  • Inzicht in karate evenementen: kan met behulp van datascience een ideale groep samengesteld worden om gelijkwaardige tegenstanders te krijgen?
  • Wat kunnen we leren van ookla data. Mensen doen regel matig snelheidsmetingen via ookla. Als netwerk provider is het interessant om te kijken of we hier van kunnen leren en hoe we het ten opzichte van andere doen
  • Automatische classificatie van meteoroïden
  • Wat zijn berlangijke factoren voor bepalen van het soort hoofdbehandelaarschap van een diabeet (huisarts of specialist)
  • Voorspellen van succes van films
  • Voorspel of een student succesvol zijn/haar opleiding gaat afronden
  • Het voorspellen van gebruikersgedrag binnen een second screen applicatie
  • Voorspellen van premiekenmerken bij een verzekeraar
    Voorspellen schadebedrag arbeidsongeschiktheidsverzekering
  • Onderzoek van de vrije opmerkings-velden uit ons contacttevredenheidsonderzoek
  • Voorspellen van schadebedrag van autoschades
  • Zoeken naar indicatoren voor verloedering in een stad.

Market Basket Analysis
  Unsupervised learning
  Association rule analysis: Arules / apriori
  GIT connection from Rstudio to GitLab.
  Mini shiny dashboard
  Reading / writing csv in a performant way
  String distance
  Qgram, jw
  Database connection to remote oracle database


  Title: Analyzing and predicting user perception
  Content:
    - Visualization of consumer app data
    - Prediction of comfort using several techniques (Tree, Random forest, Boosted Tree, SVM)
    - Analysis of text reviews

  • Ik heb een publieke dataset van alle olympische atleten gebruikt en geprobeerd op basis hiervan de kansen voor Nederland te onderzoeken.
  •  Mijn presentatie heet: Will the heart go on? y/n
     Een vergelijking van logistische regressie, decision trees en support vector machines op de Titanic data.
  • Titel: Voorspel schade (agv ziekteverzuim) of geen schade dankzij inzet LKC
  • Mijn opdracht gaat over het voorspellen van het totale verlofsaldo wat op een bepaald moment in de toekomst open zal staan. Dit willen we graag weten aangezien er een reservering gedaan moet worden voor die uren. Op dit moment is er geen op feiten gebaseerd inzicht hierin. Het maken een goede voorspelling zou dan een goed hulpmiddel zijn om te weten wanneer welke reservering gedaan moet worden om vb. aan het einde van het jaar niet voor verrassingen te staan.
  • het identificeren van adressen voor inspecties op gevaarlijke stoffen op basis van inspectieviewdata.
    InspectieView bevat inspecties door verschillende toezichthouders zowel landelijk (iszw, ilt, nvwa, milieupolitie) als regionaal (omgevingsdiensten).
    ISZW werkt voor haar inspecties meestal op basis van het kvk-bestand met de daarin geregistreerde bedrijfsindeling.
    De omgevingsdiensten werken vanuit gegevens die door gemeenten en provincies worden doorgegeven en zijn vaak nog niet de kvk aangesloten.
    Idee is dat ISZW bij haar controles in het kader van het programma Bedrijven met Gevaarlijke Stoffen bedrijven over het hoofd ziet omdat ze niet met de juiste sbi-code zijn ingeschreven in de kvk.
    Aan de hand van kenmerken van bedrijven die zijn geïnspecteerde door de omgevingsdiensten (milieutoezicht) bekijk ik of met behulp van een voorspelmodel potentiële inspectieadressen zijn te vinden.
  • Titel: Het heft in eigen handen: accreditatiedata via webscraping en text-mining
    Samenvatting: Bij een van onze directies is al jarenlang vraag naar een dataset met de gegevens over de opleidings-  en instellingsaccreditaties. Tot op heden is deze data echter nog niet (volledig) beschikbaar via levering vanuit de accreditatieorganisatie zelf. Een aantal jaar geleden is handmatig een dataset gecreëerd, waarbij een stagiair alle besluiten heeft opgezocht en de gewenste gegevens in een Excel overzicht heeft gezet. Erg arbeidsintensief, foutgevoelig, en saai, natuurlijk. Met dit project beogen we dit handmatige proces daarom te automatiseren. Daarnaast denken we na over verdere toepassingen van de gebruikte technieken in ons toezicht.
  • Op zoek naar verschillen en overeenkomsten in taalgebruik van rijkstoezichtorganisaties
    In mijn eindopdracht ga ik op zoek naar verschillen en overeenkomsten tussen inspecties en markttoezichthoudende organisaties, waarbij ik voor nu focus op hun eigen taalgebruik aan de hand van jaarverslagen. Dit is voor ons bureau een relevante vraag: 1. we werken voor alle inspecties en daarom is elk inzicht in hoe die in elkaar zitten relevant, 2. we verbreden de komende tijd ons werkterrein naar markttoezichthouders en dat is nog een vrij nieuwe wereld voor ons.
    Voor deze opdracht heb ik de jaarverslagen van 2017 verzameld, waar ik met verschillende tekstminingstechnieken op zoek ga naar patronen (unsupervised). Daarbij doe ik ook een poging om de resultaten ervan handzaam aan te bieden aan de uiteindelijke gebruikers: in eerste instantie mijn collega’s bij bureau Inspectieraad.
  • ISZW verzamelt per zaak vele documenten in losse subdirectory's. Deze documenten kunnen bijvoorbeeld word en pdf zijn.
    Aan het einde van een zaak worden de definitieve documenten vaak omgezet naar pdf's.
    Onze opdrachtgever wil alleen van de pdf's weten: "of er binnen de pagina's van de pdf sprake is van een boeterapport, paspoort of ID".
    Hij is geïnteresseerd in boeterapporten. Paspoorten en ID mogen onder geen beding worden in geladen in hun iBase pakket. Daarom willen ze vooraf weten wat het is.
  • Titel: classificatie van documenten: boeterapporten zonder identiteitsbewijzen

Dit seminar is open voor een klein aantal geïnteresseerden, dat meer wil weten over de toepassingen van Data Science of de opleiding Data Science en Big Data Analytics van Tridata.

Wie mag zich aanmelden?
 
Data Science managers
Aankomende Data Scientists
Business Intelligence managers
Data analisten
Iedereen van een data-gedreven organisatie
Kwartiermakers Data Science bij gemeenten, Rijksoverheid en ZBO’s .
Onderzoekers met een kwantitatieve achtergrond die zich willen oriënteren op het beroep Data Scientist

Kosten:
Het seminar is kosteloos. Het aantal plekken is beperkt, dus wees er snel bij.
Indien u onverhoopt niet aanwezig kunt zijn, zullen de kosten van het seminar in rekening worden gebracht (75 euro).


Voor meer informatie kunt u contact opnemen via:  info(at)tridata.nl
 
Datum: laatste dag van de opleiding
Locatie: Utrecht

Programma:
 Wordt aangekondigd

De Docenten

Dr. M. (Mark) van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Na zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, python,  en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipedia paginas. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. E(Edwin) de Jonge Studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren the hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS met als specialiteit statistical computing and modeling, data management en data visualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, javascript, python en R. In die laatste taal ontwikkelde hij een package wat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Edwin en Mark zijn auteur van het boek 'Learning R Statistical Computing with Rstudio' (Packt publishing, 2012) en werken momenteel, aan een boek over 'Statistical Data Cleaning with Applications in R' (te verschijnen bij Wiley). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “an introduction to data cleaning with R”.

Dr. ir. J.(Jan) van der Laan
Dr. ir. J.(Jan) van der Laan studeerde af op het gebied van signaalverwerking bij de de faculteit technische natuurkunde aan de Technische Universiteit Delft. Na zijn promotie op het gebied van medical physics is hij als statistisch onderzoeker werkzaam bij het CBS. Op het CBS houdt hij zich onder andere bezig met statistische analyse en regressietechnieken, data visualisatie en het verwerken en koppelen van grote bestanden. Over deze onderwerken publiceert hij op conferenties en peer reviewed journals. Jan is expert op het gebied van  meerdere programmeertalen waaronder C++, Javascript, D3.js en R. Hij heeft bijdragen geleverd aan meerdere R packages op CRAN. Jan werkt sinds 2015 als consultant en docent bij Tridata.