Download as pdf or txt
Download as pdf or txt
You are on page 1of 23

Data Exploration

Multiple binomial logistic regression

1
Dank voor de tussentijdse feedback!
• Te weinig tijd voor de groepsopdracht? Scan ‘m van tevoren even door!

• “Wat te verwachten voor het tentamen?” (Dit is geen complete opsomming)


• Vragen over theorie (Field als achtergrond, cruciale termen staan in het cursusmateriaal)
• Wooclab-vragen zijn een graadmeter van concepten die je sowieso moet kennen!
• Correcte interpretatie van modelresultaten: soortgelijk aan groepsopdrachten
• Nette samenvatting/conclusie en aanbeveling: soortgelijk aan groepsopdrachten

• In het laatste Q&A-college kun je je vragen van tevoren indienen (Formulier staat al op Canvas).

• Eerste deel van de slides staat op Canvas

2
Wooclap

Link naar Wooclap: https://app.wooclap.com/events/NEGCQQ/0

3
Wooclap

Link naar Wooclap: https://app.wooclap.com/events/YAOMEY/0

4
1 Logistic regression models
(op basis van voorbereidingsopdracht)

5
Logistic vs. Linear regression models
• Verschil in meetniveau van de outcome (Y)
• Linear models: continu meetniveau (interval of ratio)
• Logistic models: categorisch meetniveau (nominaal of ordinaal)

• Bij logistische regressie modellen kun je dus geen lineaire verbanden tussen X en Y onderzoeken
• Je onderzoek de waarschijnlijkheid (in termen van odds en probabilities) dat Y verandert als X verandert
Lineaire relatie tussen X en Y Logistische relatie tussen X en Y

6
Odds en probabilities
• Probabilities: verwijzen naar de waarschijnlijkheid dat een gebeurtenis plaatsvindt.
• Probability 0: gebeurtenis vindt zeker niet plaats.
• Probability 1: gebeurtenis vindt zeker wel plaats.

• Odds: verwijzen naar de kans op een gebeurtenis in verhouding tot de kans dat die gebeurtenis niet
plaatsvindt (gebeurtenis / niet-gebeurtenis).
• Odds kleiner dan 1: de kans op gebeurtenis is kleiner dan op niet-gebeurtenis.
• Odds 1: kans op gebeurtenis is even groot als op niet-gebeurtenis.

• Voorbeeld: er zijn 60 studenten, waarvan 25 vrouw en 35 man.


• Probability om random een vrouw te selecteren is 25/60, oftewel 0.41 (41%).
• De odds om random een vrouw te selecteren is 25/35, of 5/7, of 0.71.

• McNulty (2022) geeft in paragraaf 5.2 formules om odds om te rekenen naar probabilities en andersom.
7

Odds en probabilities worden vaak als synomiemen gebruikt. Google Translate vertaalt bijvoorbeeld
beide termen ook als ‘Kans’. Toch klopt dat niet helemaal en is het belangrijk het verschil te begrijpen.

7
Odds in Logistic Regression
• Wat is de rol van odds in logistic regression?
• Je onderzoekt de waarschijnlijkheid dat Y verandert als X verandert (de odds). Dit is je model.

Logistische relatie tussen X en Y De log (ln) van de odds van y is een lineaire functie:

8
2 Model parsimony
(op basis van voorbereidingsopdracht)

9
Model parsimony
• Model parsimony houdt in dat je het meest simpele
verklarende model presenteert, waarin alleen
predictoren zijn opgenomen die een significante
voorspeller zijn van de Y en waaruit dus alle niet
significante predictoren zijn weggelaten.
• Gebaseerd op Occam’s Razor: de meest simpele
verklaring is de beste (‘shaving away’).
• Het blijft uiteraard belangrijk om de verklarende
kracht (R²) en de fit van dit parsimonious model te
onderzoeken.

• AIC: is het model daadwerkelijk meer parsimonious?


• De AIC van dit model moet lager zijn dan van het model inclusief niet significante predictoren.

10

Let op: Dit principe van model parsimony gaan we toepassen bij de logistische regressie, maar hadden
we ook kunnen toepassen bij het multiple lineaire regressiemodel van het vorige werkcollege!

10
3 Groepsopdracht (tot ~11:50)

11
Groepsopdracht
Train 3 modellen voor “Wat is de kans dat een HU-medewerker zijn/haar baan opzegt?”
Model (stap) Predictoren (X) die in Variabele-naam Meet- Outcome Variabele-naam Meet-
elk model worden niveau (Y) niveau
toegevoegd
1 Leeftijd Age Ratio
Opleidingsniveau Education Ordinaal
Geslacht Gender Nomina
al
Aantal organisaties NumCompaniesWork Ratio
waarvoor de ed
werknemer gewerkt
heeft
Jaren werkervaring TotalWorkingYears Ratio
Vertrek in
2 Maandsalaris MonthlyIncome Ratio Nomin
afgelopen Attrition_rec
Reisafstand in km’s DistanceFromHome Ratio aal
jaar
Jaren sinds laatste YearsSinceLastPromoti Ratio
promotie on
Performancescore PerformanceRating Interval
Aantal jaren YearsWithCurrManag Ratio
werkzaam onder er
huidige manager
3 Werktevredenheid JobSatisfaction Interval²
Werk-privé balans WorkLifeBalance Interval²
Werkbetrokkenheid JobInvolvement Interval²

• Hiërarchisch multiple logistic regressionmodel bouwen


• Modellen evalueren (pseudo R square, Log-likelihood, odds, parsimony (AIC))
• Conclusies en advies!
15 december 2023 12

12
Groepsopdracht - code
BIJ ISSUES MET GEBRUIK VAN R BINNEN COLAB
• !pip install rpy2==3.0.0
• import rpy2.rinterface
• %load_ext rpy2.ipython

BIJ ISSUES VOOR HET INSTALLEREN VAN PACKAGES


• install.packages(X', repos = "http://cran.us.r-project.org")

BIJ ISSUES MET HET INLEZEN/OPHALEN VAN DATA


• import pandas as pd
• hrdata = pd.read_csv("https://raw.githubusercontent.com/uashogeschoolutrecht/ADDB-DE-
22/master/WC5_binomial_logistic_regression_model/ General_data.csv",sep=';')
• hrdata.to_csv("/hrdata.csv")

• %%R
• hrdata = read.csv("/hrdata.csv")

15 december 2023 13

13
Nabespreking (1/4)
Pseudo R square LLH (t.o.v.vorige model)

Model Pseudo R square LLH p-waarde

1 .056 -1797.5 (null-model: -1902.1) .000


2 .075 -1758.8 .000
3 .094 -1723.2 .000

Pseudo R square: ‘benadering’ van R square voor logistic regression models


Log-likelihood: goodness of fit voor categorische outcome: geeft model (significant) betere
fit?

• Interpreteer de Pseudo R squares. Welk model voorspelt vertrek van werknemers het
beste? Hoe goed?
• Interpreteer de log-likelihoods t.o.v. vorige model: Welk model heeft de beste modelfit?
15 december 2023 14

1. Interpreteer de pseudo R squares en concludeer welk model het beste het vertrek van
werknemers voorspelt én hoe goed dit model het vertrek van werknemers voorspelt.

De R squares is het hoogste voor model 3, wat dus de hoogste verklaarde variantie van vertrek van
werknemers bevat. Let op: er zijn verschillende manieren om een pseudo R square te berekenen (bijv.
de Cox & Snell en Nagelkerke), in dit geval geven we er maar 1 weer!

Model 3: De R square geeft aan dat dit model 9,4% van de variantie in vertrek verklaart. De algemene
conclusie is dat het model het vertrek van medewerkers maar beperkt voorspelt, omdat zo’n 91% van
de variantie niet door dit model voorspeld wordt.

2. Interpreteer de LLM m.b.t. verbetering ten opzichte van vorige modellen en trek een passende

14
conclusie over de model fit.

De LLMs zijn significant (p = .000) en de waarden nemen af, wat betekent dat elk model een beter
voorspellend model is dan het voorgaande model. Oftewel: model 3 heeft de beste modelfit.

14
Nabespreking (2/4)
Interpreteer de odds ratio en significantie nauwkeurig voor model 3:

• “Als het confidence Variabele 95% Confidence interval Odds Significant?


interval waarde 1 (van odds ratio) Ratio
(kantelpunt) bevat, Lower Upper (Exp(B))
dan is de relatie bound bound
tussen X en Y niet Constant 1,508 11,717 4,203 Ja
significant.” Age 0,953 0,979 0,966 Ja
College (education 2) 0,780 1,463 1,068 Nee
• “Als alle andere Bachelor (education 3) 0,660 1,178 0,882 Nee
variabelen gelijk zijn, Master (education 4) 0,702 1,286 0,950 Nee
heeft X een significant Doctor (education 5) 0,372 1,126 0,647 Nee
effect op Y” Female 0,764 1,087 0,911 Nee
• Odds < 1: NumCompaniesWorked 1,075 1,153 1,113 Ja
toename in X TotalWorkingYears 0,927 0,966 0,946 Ja
leidt tot afname in MonthlyIncome 1,000 1,000 1,000 Nee
Y DistanceFromHome 0,986 1,007 0,997 Nee
• Odds >1: YearsSinceLastPromotion 1,103 1,185 1,143 Ja
PerformanceRating 0,963 1,522 1,211 Nee
toename in X
YearsWithCurrManager 0,844 0,908 0,876 Ja
leidt tot toename
JobSatisfaction 0,698 0,814 0,754 Ja
in Y
WorkLifeBalance 0,681 0,860 0,765 Ja
JobInvolvement 0,809 1,027 0,911 Nee
15 december 2023 15

BELANGRIJK: Uitleg interpretatie van confidence intervals bij Odds ratio’s

Bij toetsende analyses zijn we gewend om de 95% confidence intervals als volgt te interpreteren:
bevat het confidence interval een 0‐punt, dan is de onderzochte relatie tussen X en Y niet significant.
De interpretatie van confidence intervals van Odds ratio’s wijkt hiervan af, dus let daarop! Bij de
interpretatie van een Odds ratio is de waarde 1 het kantelpunt waarop de inhoudelijke interpretatie
verandert: een odds ratio onder de 1 betekent dat als de kans op X toeneemt, de kans op Y afneemt;
terwijl een odds ratio boven de 1 betekent dat als de kans op X toeneemt, de kans op Y ook toeneemt.
Daarom is het bij het bepalen van de significantie o.b.v. de confidence intervals die horen bij Odds
ratio’s belangrijk om te kijken of de confidence interval 1 bevat (in plaats van een 0‐punt). Bevat de
confidence interval de waarde 1, dan is de onderzochte relatie niet significant.

Inhoudelijke interpretatie van relevante (oftewel significante) predictoren

Significante voorspellers

 Age: als alle andere variabelen gelijk zijn, heeft leeftijd een significant negatief effect op het

15
vertrek van medewerkers (p = .000), want elke toename in leeftijd leidt tot een afname van
odds in vertrek van 3,4% (oftewel: 0.966 ‐ 1 = ‐0,034).
 NumCompaniesWorked: als alle andere variabelen gelijk zijn, heeft het aantal organisaties
waarvoor iemand gewerkt heeft een significant positief effect op het vertrek van medewerkers
(p = .000), want elke toename in deze aantal organisaties waarvoor gewerkt is leidt tot een
toename van odds in vertrek van 11,3% (oftewel: 1,113 – 1 = 0,113).
 TotalWorkingYears: als alle andere variabelen gelijk zijn, heeft Jaren werkervaring een
significant negatief effect op het vertrek van medewerkers (p = .000), want elke toename in
Jaren werkervaring leidt tot een afname van odds in vertrek van 5,4% (oftewel: 0,946 ‐1 = ‐
0,054).
 YearsSinceLastPromotion: als alle andere variabelen gelijk zijn, heeft het aantal jaren sinds de
laatste promotie heeft een significant positief effect op het vertrek van medewerkers (p = .000),
want elke toename in jaren sinds laatste promotie leidt tot een toename van odds in vertrek
van 14,3% (oftewel: 1,143 – 1 = 0,143).
 YearsWithCurrManager: als alle andere variabelen gelijk zijn, heeft Jaren werkzaam onder
dezelfde manager een significant negatief effect op het vertrek van medewerkers (p = .000),
want elke toename in Jaren leidt tot een afname van odds in vertrek van 12,4% (oftewel: 0,876
– 1 = ‐0,124).
 JobSatisfaction: als alle andere variabelen gelijk zijn, heeft Werktevredenheid een significant
negatief effect op het vertrek van medewerkers (p = .000), want elke toename in
Werktevredenheid leidt tot een afname van odds in vertrek van 24,6% (oftewel: 0,754 – 1 = ‐
0,246).
 WorkLifeBalance: als alle andere variabelen gelijk zijn, heeft Werk‐privé balans een significant
negatief effect op het vertrek van medewerkers (p = .000), want elke toename in deze balans
leidt tot een afname van odds in vertrek van 23,5% (oftewel: 0,765 – 1 = ‐0,235).

Opvallend resultaat:

 MonthlyIncome: de odds ratio is precies 1, wat niet duidt op een toe of afname. Het confidence
interval is ook precies 1. Dus deze variabele draagt niet bij aan het voorspellen van het vertrek
van medewerkers.

BELANGRIJK: Toelichting ‘als alle andere variabelen gelijk zijn’: Je interpreteert de odds ratio’s van
één predictor onder de conditie dat alle andere variabelen gelijk zijn. Oftewel, als twee respondenten
op alle andere predictoren hetzelfde scoren, leidt een hogere leeftijd van één respondent tot een
lagere kans op vertrek.

15
Nabespreking (3/4)
Leidt het verwijderen van niet significante predictoren tot een meer ‘parsimonous’ model?

Model AIC (Akaike Information Criterion)


Model 3 met alle predictoren 3480,49
Model 3 met alleen significante predictoren 3476,59

15 december 2023 16

Leidt het verwijderen van niet significante predictoren daadwerkelijk tot een meer ‘parsimonious’
model? Licht je antwoord toe.

Toelichting AIC

Zie McNulty, par. 5.3.3.: om de model parsimony statistisch uit te drukken moet de AIC berekend
worden.

De AIC moet berekend worden voor het originele model 3 (zie hierboven) en voor model 3 na
verwijdering van niet sign. predictoren. De AIC van het parsimonious model zou lager moeten zijn!

Antwoord op vraag

Model zonder significante predictoren zou een lager AIC moeten hebben dan het model met
significante predictoren. Dat is hier het geval. Dus het verwijderen van niet significante predictoren

16
leidt tot een meer parsimonious model.

16
Conclusies en advies aan
opdrachtgevers van de HU (4/4)
“HU wil investeren in het behouden van werknemers, om zo het vertrekpercentage te
verlagen. Het management heeft daarom aan het People Analytics team gevraagd te
onderzoeken welke factoren het vertrek van werknemers kunnen verklaren, zodat
gerichte interventies kunnen worden ingezet om werknemers te behouden.”

Denk aan:
• Performance van model 3
• Verklaarde variantie
• Parsimony
• Concrete aanbevelingen

15 december 2023 17

Conclusies

Er is een voorspellend model voor vertrek van HU medewerkers gebouwd, bestaande uit
achtergrondkenmerken (alleen leeftijd), werkkenmerken en percepties van de medewerker over het
werk. Dit model voorspelt echter maar ~ 9% van de variantie in vertrek. Dat is weinig, en betekent dat
91% niet door het model wordt verklaard. Op basis van he,t model kan het vertrek van medewerkers
dus niet nauwkeurig worden voorspeld.

Toch bevat het model wel interessante informatie. Wat bijvoorbeeld opvalt is dat werktevredenheid
en hogere scores op werk‐prive balans belangrijke voorspellers zijn van vertrek. Bijvoorbeeld
werktevredenheid: als die stijgt van LOW naar MEDIUM neemt de odds op vertrek af met 24,6%. Dat is
een grote afname. Bij werk‐prive balans zien we iets vergelijkbaars.

Ander voorbeeld is leeftijd: elk jaar dat een werknemer ouder is, zorgt voor een afname van 4,7% odds
in vertrek. Dat lijkt wellicht weinig, maar als je een 40‐jarige en 50‐jarige vergelijkt, betekent dat 10
maal een odds‐afname van 3,4%!

17
Advies

Het advies is om op basis van dit voorspellend model nog niet te veel veranderingen of interventies
door te voeren, gezien de geringe bijdrage van het model aan het verklaren van de variantie van
vertrek van medewerkers. De kosten daarvan wegen waarschijnlijk maar gering op tegen de baten.

Het is beter om eerst verder onderzoek te doen naar vertrek en een beter voorspellend model te
bouwen. Dat kan bijvoorbeeld door uit eerdere onderzoeken en literatuur factoren te halen die
vertrek voorspellen, deze te gaan meten en dan nieuwe analyses uit te voeren.

17
VRAGEN?

18
19

You might also like