Cursus tekstmining en tekstanalyse met R (3 dagen)

tekstmining en tekstanalyse: inleiding

Geschreven tekst zoals e-mails, jaarverslagen en content van websites bevatten een schat aan informatie die in hun originele vorm lastig te benutten zijn. De cursus textmining en textanalyse met R geeft een inleiding in technieken waarmee deze informatiebronnen kunnen worden ontsloten, geanalyseerd, en gebruikt.

Inhoud

Tridata hecht er waarde aan om cursisten tijdens de cursussen hands-on ervaring op te laten doen, dus wordt er op basis van gedegen theorie meteen toegepast in de praktijk. Elke dag bestaat daarom voor ongeveer de helft uit oefeningen onder begeleiding van onze ervaren docenten.

Dag 1. Werken met tekst- en informatie-extractie
Toepassingen: webmining, tekst opschonen, detectie van fraude (plagiaat), informatie-extractie.

Tekstextractie: tekst ontsluiten uit pdf, webpagina’s, Worddocumenten
Technische aspecten: encoding standaarden
Informatie-extractie met reguliere expressies (regular expressions)
Approximate (fuzzy) text matching

Dag 2: Tekstanalyse en interpretatie.
Technieken om de vraag te beantwoorden: waar gaan deze teksten over?

Bag-of-words, term-document matrix
Tekst verkennen: beschrijvende statistiek en keywords in context
Tekst visualiseren: word clouds, comparison word clouds
Beschrijvende statistieken
Topic models:
Latent Semantic Analysis (LSA)
Latent Dirichlet Allocation (LDA)

Dag 3: Tekst als predictor
Toepassingen: gebruik van tekstgegevens om eigenschappen en sentiment van de auteurs af te leiden.

Meer over term document matrix en feature extraction
Word embeddings
Sentimentanalyse/opinion mining
Gebruik van tekst in statistische en machinelearningmodellen.

Doelgroep

Business Intelligence en data-analisten die hun kennis willen uitbreiden met text processing en textminingvaardigheden;
Teammanagers van BI en data-analisten;
Jonge academici die een carrière ambiëren als data scientist;
Specialisten die hun kennis over het analyseren van tekst op peil willen brengen;
Vereiste voorkennis;
Enige bekendheid met basisstatistiek wordt verondersteld. Verder verwachten we enige bekendheid met de statistische programmeeromgeving R. Bijvoorbeeld op basis van (de eerste twee dagen van) de Tridata Cursus Statistical Programming with R.

Tools

Tijdens de cursus wordt gewerkt met de meest recente versie van R en RStudio, plus een aantal R-packages voor text processing en -analyse.

Gerelateerde opleidingen

Statistical programming met R
Gevorderd statistical programming met R
Package in één dag: schrijf je eigen R package
Netwerkanalyse met R

Cursusdata

1 december, 8 december, 15 december 2023
9 mei, 16 mei, 23 mei 2024

Lestijden

De lestijden zijn van 9:15 tot 16:00, met uitloop tot uiterlijk 16:15.

Studiebelasting

De cursus tekstmining en tekstanalyse met R duurt 3 dagen. Per week kun je rekenen op 8 uur studielast, op de cursusdag zelf. Daarnaast ben je in je vrije tijd per week nog 2-4 uur bezig met de voorbereiding en verwerking van de cursusdag. Dit is afhankelijk van de intensiviteit van de lesstof en jouw eigen opleidingsachtergrond.

In-company training

De cursus tekstmining en tekstanalyse met R kan ook in-company worden gegeven. Een in-company training, ook wel in-house training of bedrijfstraining, is een training die binnen jouw organisatie plaatsvindt. Hebben meerdere collega’s in uw organisatie dezelfde leervraag? Dan is een in-company training zeer geschikt. Onze trainingsprogramma’s stemmen we af op leerwensen en –doelen van jou en je collega’s. Neemt u voor een maatwerkofferte contact op met Tridata.

Kosten en inschrijving:

De kosten van de 3 daagse cursus tekstmining en tekstanalyse bedragen € 1975. per deelnemer. De cursusprijs is vrijgesteld van BTW (BTW-tarief 0%) en is inclusief cursusmateriaal, deelnamecertificaat, koffie/thee en lunches.

Cursuslocatie

Europalaan 400, 3526 KS Utrecht

Docenten

Dr. Mark van der Loo studeerde cum laude af in de informatische chemie aan de Katholieke Universiteit Nijmegen (een combinatie van scheikunde, wiskunde, en informatica). Sinds zijn promotie op een onderwerp uit de quantumfysica is hij werkzaam als statistisch onderzoeker bij het CBS, met als specialiteit statistical computing and modeling, data cleaning en text processing. Over deze onderwerpen publiceert hij op conferenties en in peer reviewed journals. Mark is expert op het gebied van R, Python, en (multicore) C programming en heeft verschillende R-packages op CRAN gepubliceerd. Een van die packages wordt onder andere door Wikimedia Foundation gebruikt voor tekstanalyse van Wikipediapagina’s. Mark werkt sinds 2012 als consultant en docent voor Tridata.

Drs. Edwin de Jonge studeerde af in de theoretische natuurkunde aan de Katholieke Universiteit Nijmegen. Na zich enkele jaren te hebben gespecialiseerd in softwareontwikkeling is hij als onderzoeker gaan werken bij het CBS, met als specialiteit statistical computing and modeling, datamanagement en datavisualisatie. Over dit laatste onderwerp publiceerde Edwin onder andere een paper voor de prestigieuze IEEE VisWeek conferentie. Edwin is expert op het gebied van verschillende programmeertalen waaronder C++, Javascript, Python en R. In die laatste taal ontwikkelde hij een package dat inmiddels meer dan 120.000 maal per maand wordt gedownload van de CRAN servers. Edwin werkt sinds 2012 als consultant en docent voor Tridata.

Mark van der Loo en Edwin de Jonge zijn auteurs van de boeken “Learning RStudio for R Statistical Computing” (Packt Publishing, 2012) en “Statistical Data Cleaning with Applications in R” (Wiley, 2018). In 2013 gaven zij een tutorial op de grootste R conferentie ter wereld (useR!2013) getiteld “An introduction to data cleaning with R”. Zij waren ook keynote speakers op useR conferenties in Boekarest, Los Angeles, Toulouse, Marrakesh, Madrid, etc.