Meervoudige Regressieanalyse

In het vorige hoofdstuk is besproken hoe je een eenvoudige lineaire regressie met R kunt maken. Hierbij wordt er een afhankelijke variabele voorspeld met één verklarende variabele. Echter kun je ook een afhankelijke variabele voorspellen met meerdere verklarende variabelen.

Bij R is er weinig verschil in code tussen een enkelvoudige regressie en een meervoudige regressie. Je kunt zo veel verklarende variabelen gebruiken als u wilt, zolang u ze maar met een + in de code blijft toevoegen. Op dezelfde manier als bij een enkelvoudige regressie kunt u het geschatte model en de gegevens van de regressie tevoorschijn halen.

Interpretatie van de regressieanalyse

In tegenstelling tot de enkelvoudige regressie, staan er in het resultaat van de meervoudige regressie meerdere rijen van variabelen. Het principe is hetzelfde, aan de hand van de sterren achter de rij worden de significanties van de variabelen getoond. In het volgende voorbeeld wordt het volgende voorspellingsmodel gemaakt: De winst voorspellen aan de hand van personeelskosten, materiaalkosten en de tevredenheid van de klant. Hiervoor wordt het volgende command gebruikt:

model3 <- lm(Winst~Personeelskosten+Materiaalkosten+TevredenheidKlant, Projecten)

Door de naam van de regressie Regressie in te toetsen, verschijnt het geschatte model:

Winst = 8845.8805 + (-0.2964)X1 + (-1.9292)X2 + (-1338.5787)X3.

Waarbij X1 staat voor de personeelskosten, X2 voor de materiaalkosten en X3 voor de tevredenheid van de klant.

summary(model3)
## 
## Call:
## lm(formula = Winst ~ Personeelskosten + Materiaalkosten + TevredenheidKlant, 
##     data = Projecten)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4869.0 -1123.5    15.4  1281.8  6511.4 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        8845.8805   943.3177   9.377 3.24e-15 ***
## Personeelskosten     -0.2964     0.1038  -2.855 0.005278 ** 
## Materiaalkosten      -1.9292     0.9469  -2.037 0.044364 *  
## TevredenheidKlant -1338.5787   360.4634  -3.713 0.000343 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2046 on 96 degrees of freedom
## Multiple R-squared:  0.2756,    Adjusted R-squared:  0.2529 
## F-statistic: 12.17 on 3 and 96 DF,  p-value: 8.094e-07

Valt het je op dat alle rijen van variabelen significant zijn? De een is echter minder significant dan de ander, maar toch zijn alle variabelen significant genoeg om in het model toe te passen. In het voorbeeld is de Adjusted R-squared slechts 0.2529. De drie verklarende variabelen zijn dus slechte variabelen om de winst mee te voorspellen. U hebt kunnen zien dat een meervoudige regressie op dezelfde manier werkt als een enkelvoudige regressie.

Let op! Het begrip voorspellen moet u interpreteren als voorspellen in uw eigen dataset. Uw dataset is een afspiegeling van uw eigen situatie, niet hoe het er in alle situaties op elk moment in de wereld aan toe gaat. Het blijven namelijk maar statistische functies die verbanden in uw data analyseren. U bent met de regressieanalyse dus beperkt uitspraken te doen over voorspellingen in uw eigen situatie.

results matching ""

    No results matching ""