arrow_drop_up arrow_drop_down
Uitleg van Multipele regressie

Multipele regressie

Multipele regressie

Multipele regressie

De situatie van OLS regressieanalyse

Als gegevens aan elkaar gerelateerd zijn (vast te stellen door het bepalen van de samenhang in de vorm van een productmoment correlatie), dan kun je voorspellingen doen. Bij de univariate regressieanalyse is daarvoor het voorbeeld van huwelijkspartners gegeven. Je kan een betere voorspelling doen over de lengte van de vrouw als men de lengte van de man weet. De relatie tussen y en x is in een algebraïsche formule op te schrijven:


                    y = a + b1X1

waarbij:

          y = afhankelijke variabele

          a = intercept

        b1 = de richting en kracht van de variabele

        X1 = de onafhankelijke / voorspellende variabele


Het berekenen van de a en b1 gebeurt met behulp van de formules zoals gepresenteerd bij de univariate regressieanalyse.


De situatie van multipele regressie

Meestal is het niet één aspect dat bepalend is, maar is er een hele reeks aspecten. Bij een voorspelling welk inkomen een persoon heeft, zou je zonder enige nadere kennis het beste kunnen kiezen voor het algemeen gemiddelde. De voorspelling wordt beter als ook bekend is welke opleiding de persoon heeft gevolgd (hoger opgeleiden verdienen gewoonlijk meer), diens leeftijd (oudere mensen verdienen gewoonlijk meer), het milieu van herkomst, de opleiding van de vader, de opleiding van de moeder, het beroep van de vader, het beroep van de moeder (wie voor een dubbeltje geboren is ....) . Deze en nog veel meer factoren zijn op de een of andere manier van invloed op het inkomen. Als er een regressielijn opgesteld zou moeten worden, dan zou de volgende algemene formule van toepassing zijn:


            y = a + b1X1 + b2X2 + b3X3 + .......... + bzXz

waarbij:

           y = afhankelijke variabele

          a = intercept

          b1 tot bz = de richting en kracht van de variabele

          X1 tot Xz = de onafhankelijke / voorspellende variabele


Het berekenen van de regressiecoëfficiënten (btot bz)

Nu je te maken hebt met meerdere voorspellende variabelen, wordt het veel lastiger om de regressielijn te berekenen dan in de univariate regressieanalyse. Je moet rekening houden met de voorspellende kracht van de andere variabelen. Zodra je een variabele toevoegt of verwijdert, verandert het hele 'krachtenveld' waardoor de variabelen in de ene analyse wel en in de andere analyse niet belangrijk blijken te zijn. (Stof tot nadenken! Wat wil je bereiken met je analyse?)


Er zijn drie procedures om de gewichten van de regressiecoëfficiënten vast te stellen: een stappenprocedure in voorwaartse richting, een stappenprocedure in achterwaartse richting, en een in te stellen eigen procedure.

Bij de stappenprocedure in voorwaartse richting berekent de computer eerst de b-waarde voor de voorspellende waarde met de hoogste correlatiecoëfficiënt (want die heeft de meeste samenhang). Daarna berekent de computer de b-waarde voor de voorspellende variabele die daarna de hoogste samenhang vertoont (waarbij eerst de samenhang van de eerste variabele met het de afhankelijke variabele (y) eruit wordt gehaald). En in de derde, vierde en alle erna volgende stappen, wordt er steeds een variabele toegevoegd (waarbij steeds weer eerst de samenhang van de voorgaande variabelen met de afhankelijke variabele eruit wordt gehaald). Meestal is er een afbreekroutine: als een nieuw toe te voegen variabele niet meer substantieel bijdraagt aan de verklaarde variantie, stopt het programma. Het resultaat is een - volgens deze procedure - zo hoog mogelijke multipele correlatiecoëfficiënt.


De stappenprocedure in achterwaartse richting verloopt omgekeerd. De computer start de procedure door alle voorspellende variabelen in de analyse op te nemen. Daarna laat de computer een variabele weg en toetst of er sprake is van substantieel verlies in de verklaarde variantie (de multipele correlatiecoëfficiënt). Mocht dat niet zo zijn, dan wordt er weer een variabele uit het analysemodel weggelaten. De procedure stopt als er wel substantieel verlies optreedt.


De voorwaartse procedure en de achterwaartse procedure leveren meestal hetzelfde resultaat op: er zitten dezelfde variabelen in en de hoogte van de multipele correlatie is hetzelfde.


Als je gebruik maakt van een eigen procedure, stel je zelf een volgorde op van de variabelen die in het analysemodel moeten worden opgenomen, of stel je de afbreekroutine anders in.


Het percentage verklaarde variantie (R2)

Hierboven is de multipele correlatiecoëfficiënt al ter sprake gekomen, maar nog niet uitgelegd. Elders daar ga ik dieper op in, maar voor nu moet je weten dat de R2 het percentage verklaarde variantie is. Bij de univariate regressie (slechts één voorspellende variabele) is het percentage verklaarde variantie overeenkomstig aan r(xy)2 * 100%. Zodra er nog een variabele wordt toegevoegd, kan je nog een beetje meer variantie van y verklaren. Er zijn filosofen die stellen dat als je maar lang genoeg door blijft gaan met het vinden van verklarende variabelen, dat dan alles verklaard kan worden. Daar kan men over twisten.


Hoe dan ook: met de regressieanalyse probeert de onderzoeker zoveel mogelijk variantie van y te verklaren uit de variabelen X1, X2, X3 , X4, .... Er wordt dus steeds een beetje verklarende variantie toegevoegd. Het percentage verklaarde variantie wordt nu niet meer aangeduid met r2
maar met R2. Dit noemt men de multipele correlatiecoëfficiënt. Het maakt duidelijk dat het niet om een samenhang tussen twee variabelen gaat, maar dat er meerdere variabelen verantwoordelijk zijn.


Het niveau van de variabele is van belang

Regressieanalyse kan alleen worden uitgevoerd als zowel de afhankelijke variabele als de onafhankelijke/voorspellende variabelen zich op interval- of ratio niveau bevinden. Als een of meerdere onafhankelijke/voorspellende variabelen zich op nominaal of ordinaal niveau bevinden kan in beginsel de multipele regressieanalyse niet meer worden uitgevoerd. De variabelen die niet voldoen aan deze vereisten, kan je het beste weglaten uit de analyse. Het alternatief is ze op te nemen in de analyses als een dummy-variabele (voor variabelen op nominaal niveau) of als een verkapte variabele op interval niveau (voor variabelen op ordinaal niveau). Nog een alternatief is het analyseren van de gegevens met een programma voor nominale/ordinale data. Om dan tot significante resultaten te komen, zijn vaak grote aantallen onderzoekseenheden nodig. Je moet dan eerder denken in duizendtallen dan in honderdtallen. Mijn ervaring met de bestaande programma's is dan vaak dat ze vastlopen of onzinnige uitkomsten opleveren.

  

Bekijk onze video's over regressieanalyse. Als je die bekeken hebt, kun je het helemaal zelf.


Dat zijn:


Uit de Cursus Methodologie:


Theorieën toetsen met regressianalyse



Uit de Cursus Statistiek:

Regressieanalyse in de Cursus Statistiek


Mutipele Regressieanalyse in de Cursus Statistiek


Mediatie in de Cursus Statistiek


Moderatie in de Cursus Statistiek


Regressieanalyse met niet continue data



Uit de Cursus SPSS:


OLS en Multipele regressie in SPSS


Mediatie en Moderatie

Mediatie en moderatie in SPSS


Werken met dummy's

Regressieanalyse met dummy's in de Cursus SPSS


Deze video's vind je in het Online Hulp-platform.

Krijg hulp van professionals

> 35.000

bezoekers per maand op de site

> 3.000

leden op jaarbasis

> 600

cursisten onderzoek, statistiek en/of SPSS

Er is nog veel meer te vertellen over variantieanalyse en de vele andere statistische toetsen. Je leest er alles over op ons Online Hulp-platform.


Op het Online Hulp-platform vind je veel informatie. In ons Online Woordenboek Onderzoek en Statistiek krijg je uitleg van 124 begrippen. Als lid van de community kun je vragen stellen en antwoord krijgen van experts. Bovendien krijg je elke week een tip over hoe je beter onderzoek kunt verrichten. Het enige wat je daarvoor hoeft te doen is een account aanmaken. En dat is allemaal gratis!


Als je meer wilt, kun je cursussen volgen. Je kunt kiezen uit:

- Cursus Onderzoeksvaardigheden;

- Cursus Toegepaste Statistiek;

- Cursus SPSS;

- Basiscursus Statistiek en SPSS.


Altijd fijn om te beschikken over goede en betrouwbare informatie.

Missie

Ik vind het belangrijk dat jij goed onderzoek kunt verrichten,

Daarom wil ik je het vak goed leren.


Want met goed onderzoek krijg je betere informatie.

Met betere informatie kun je betere beslissingen nemen.

Met betere beslissingen, kun je een betere (mooiere, schonere, vriendelijkere ...) wereld maken.


Ik help je graag.