arrow_drop_up arrow_drop_down

Multipele regressieanalyse

Multipele regressieanalyse is een statistische analysetechniek om de variantie in een variabele te verklaren uit meerdere variabelen.

Naar het Online Woordenboek Onderzoek en Statistiek van Hulp bij OnderzoekAlles wat je moet weten over onderzoek vind je in het Online Kenniscentrum Onderzoek en Statistiek >>>

De situatie van OLS regressieanalyse

Als gegevens aan elkaar gerelateerd zijn (vast te stellen door het bepalen van de samenhang in de vorm van een productmoment correlatie), dan kun je voorspellingen doen. Bij de univariate regressieanalyse is daarvoor het voorbeeld van huwelijkspartners gegeven. Je kan een betere voorspelling doen over de lengte van de vrouw als men de lengte van de man weet. De relatie tussen y en x is in een algebraïsche formule op te schrijven: y = a + b1X1 waarbij: y = afhankelijke variabele a = intercept b1 = de richting en kracht van de variabele X1 = de onafhankelijke / voorspellende variabele Het berekenen van de a en b1 gebeurt met behulp van de formules zoals gepresenteerd bij de univariate regressieanalyse.

De situatie van multipele regressie

Meestal is het niet één aspect dat bepalend is, maar is er een hele reeks aspecten. Bij een voorspelling welk inkomen een persoon heeft, zou je zonder enige nadere kennis het beste kunnen kiezen voor het algemeen gemiddelde. De voorspelling wordt beter als ook bekend is welke opleiding de persoon heeft gevolgd (hoger opgeleiden verdienen gewoonlijk meer), diens leeftijd (oudere mensen verdienen gewoonlijk meer), het milieu van herkomst, de opleiding van de vader, de opleiding van de moeder, het beroep van de vader, het beroep van de moeder (wie voor een dubbeltje geboren is ....) . Deze en nog veel meer factoren zijn op de een of andere manier van invloed op het inkomen. Als er een regressielijn opgesteld zou moeten worden, dan zou de volgende algemene formule van toepassing zijn: y = a + b1X1 + b2X2 + b3X3 + .......... + bzXz waarbij: y = afhankelijke variabele a = intercept b1 tot bz = de richting en kracht van de variabele X1 tot Xz = de onafhankelijke / voorspellende variabele

Het berekenen van de regressiecoëfficiënten (b1tot bz)

Nu je te maken hebt met meerdere voorspellende variabelen, wordt het veel lastiger om de regressielijn te berekenen dan in de univariate regressieanalyse. Je moet rekening houden met de voorspellende kracht van de andere variabelen. Zodra je een variabele toevoegt of verwijdert, verandert het hele 'krachtenveld' waardoor de variabelen in de ene analyse wel en in de andere analyse niet belangrijk blijken te zijn. (Stof tot nadenken! Wat wil je bereiken met je analyse?) Er zijn drie procedures om de gewichten van de regressiecoëfficiënten vast te stellen: een stappenprocedure in voorwaartse richting, een stappenprocedure in achterwaartse richting, en een in te stellen eigen procedure. Bij de stappenprocedure in voorwaartse richting berekent de computer eerst de b-waarde voor de voorspellende waarde met de hoogste correlatiecoëfficiënt (want die heeft de meeste samenhang). Daarna berekent de computer de b-waarde voor de voorspellende variabele die daarna de hoogste samenhang vertoont (waarbij eerst de samenhang van de eerste variabele met het de afhankelijke variabele (y) eruit wordt gehaald). En in de derde, vierde en alle erna volgende stappen, wordt er steeds een variabele toegevoegd (waarbij steeds weer eerst de samenhang van de voorgaande variabelen met de afhankelijke variabele eruit wordt gehaald). Meestal is er een afbreekroutine: als een nieuw toe te voegen variabele niet meer substantieel bijdraagt aan de verklaarde variantie, stopt het programma. Het resultaat is een - volgens deze procedure - zo hoog mogelijke multipele correlatiecoëfficiënt

De stappenprocedure in achterwaartse richting verloopt omgekeerd. De computer start de procedure door alle voorspellende variabelen in de analyse op te nemen. Daarna laat de computer een variabele weg en toetst of er sprake is van substantieel verlies in de verklaarde variantie (de multipele correlatiecoëfficiënt). Mocht dat niet zo zijn, dan wordt er weer een variabele uit het analysemodel weggelaten. De procedure stopt als er wel substantieel verlies optreedt. De voorwaartse procedure en de achterwaartse procedure leveren meestal hetzelfde resultaat op: er zitten dezelfde variabelen in en de hoogte van de multipele correlatie is hetzelfde. Als je gebruik maakt van een eigen procedure, stel je zelf een volgorde op van de variabelen die in het analysemodel moeten worden opgenomen, of stel je de afbreekroutine anders in.

Het percentage verklaarde variantie (R2)

Hierboven is de multipele correlatiecoëfficiënt al ter sprake gekomen, maar nog niet uitgelegd. Elders daar ga ik dieper op in, maar voor nu moet je weten dat de R2 het percentage verklaarde variantie is. Bij de univariate regressie (slechts één voorspellende variabele) is het percentage verklaarde variantie overeenkomstig aan r(xy)2 * 100%. Zodra er nog een variabele wordt toegevoegd, kan je nog een beetje meer variantie van y verklaren. Er zijn filosofen die stellen dat als je maar lang genoeg door blijft gaan met het vinden van verklarende variabelen, dat dan alles verklaard kan worden. Daar kan men over twisten. Hoe dan ook: met de regressieanalyse probeert de onderzoeker zoveel mogelijk variantie van y te verklaren uit de variabelen X1, X2, X3, X4, .... Er wordt dus steeds een beetje verklarende variantie toegevoegd. Het percentage verklaarde variantie wordt nu niet meer aangeduid met r2 maar met R2. Dit noemt men de multipele correlatiecoëfficiënt. Het maakt duidelijk dat het niet om een samenhang tussen twee variabelen gaat, maar dat er meerdere variabelen verantwoordelijk zijn.

Het niveau van de variabele is van belang

Regressieanalyse kan alleen worden uitgevoerd als zowel de afhankelijke variabele als de onafhankelijke/voorspellende variabelen zich op interval- of ratio niveau bevinden. Als een of meerdere onafhankelijke/voorspellende variabelen zich op nominaal of ordinaal niveau bevinden kan in beginsel de multipele regressieanalyse niet meer worden uitgevoerd. De variabelen die niet voldoen aan deze vereisten, kan je het beste weglaten uit de analyse. Het alternatief is ze op te nemen in de analyses als een dummy-variabele (voor variabelen op nominaal niveau) of als een verkapte variabele op interval niveau (voor variabelen op ordinaal niveau). Nog een alternatief is het analyseren van de gegevens met een programma voor nominale/ordinale data. Om dan tot significante resultaten te komen, zijn vaak grote aantallen onderzoekseenheden nodig. Je moet dan eerder denken in duizendtallen dan in honderdtallen. Mijn ervaring met de bestaande programma's is dan vaak dat ze vastlopen of onzinnige uitkomsten opleveren.  

Foeke van der Zee met Boek over onderzoek

© Foeke van der Zee (2017). hulpbijonderzoek.nl/online-woordenboek
- specialist in Onderzoek en Statistiek
- auteur van boeken over onderzoek    





Heb je hulp nodig bij je onderzoeksopzet, statistiek of SPSS?

Met onze cursussen wordt onderzoek zo veel makkelijker en leuker. En het scheelt je uren tijd. Mocht je ondanks deze cursus toch nog een vraag hebben, dan kun je die stellen in onze community en krijg je antwoord van experts. Beter kun je het niet krijgen.

Online Cursus Methodologie
Cursus methodologie
Met de informatie in deze cursus doe je altijd perfect onderzoek. Je krijgt info over het hele onderzoeksproces; van A tot Z; van onderzoeksvraag tot onderzoeksverslag.
Meer informatie >>>


Online Cursus Statistiek
Cursus Statistiek 
Als je twee getallen kunt vergelijken, kun je ook statistiek leren. Als je onze video's bekijkt, wordt statistiek een makkie. Het is en cursus toegepaste statistiek, dus uiterst bruikbaar voor je thesis.
Meer informatie >>>


Online Cursus SPSS
Cursus SPSS 
In online video's leggen we je uit op welke knoppen je moet drukken om de juiste uitvoer te krijgen.  We leggen je ook uit waar je inde uitvoer op moet letten om het analyseresultaat te interpreteren.
Meer informatie >>>

Altijd fijn om te beschikken over goede en betrouwbare informatie.

Meer informatie over Onderzoek
Reactie plaatsen