Multipele regressie

Het SPSS-codeboek

Multipele regressie

De situatie van OLS regressieanalyse

Als gegevens aan elkaar gerelateerd zijn (vast te stellen door het bepalen van de samenhang in de vorm van een productmoment correlatie), dan kun je voorspellingen doen. Bij de univariate regressieanalyse is daarvoor het voorbeeld van huwelijkspartners gegeven. Je kan een betere voorspelling doen over de lengte van de vrouw als men de lengte van de man weet. De relatie tussen y en x is in een algebraïsche formule op te schrijven:


                    y = a + b1X1

waarbij:

          y = afhankelijke variabele

          a = intercept

        b1 = de richting en kracht van de variabele

        X1 = de onafhankelijke / voorspellende variabele


Het berekenen van de a en b1 gebeurt met behulp van de formules zoals gepresenteerd bij de univariate regressieanalyse.


De situatie van multipele regressie

Meestal is het niet één aspect dat bepalend is, maar is er een hele reeks aspecten. Bij een voorspelling welk inkomen een persoon heeft, zou je zonder enige nadere kennis het beste kunnen kiezen voor het algemeen gemiddelde. De voorspelling wordt beter als ook bekend is welke opleiding de persoon heeft gevolgd (hoger opgeleiden verdienen gewoonlijk meer), diens leeftijd (oudere mensen verdienen gewoonlijk meer), het milieu van herkomst, de opleiding van de vader, de opleiding van de moeder, het beroep van de vader, het beroep van de moeder (wie voor een dubbeltje geboren is ....) . Deze en nog veel meer factoren zijn op de een of andere manier van invloed op het inkomen. Als er een regressielijn opgesteld zou moeten worden, dan zou de volgende algemene formule van toepassing zijn:


            y = a + b1X1 + b2X2 + b3X3 + .......... + bzXz

waarbij:

           y = afhankelijke variabele

          a = intercept

          b1 tot bz = de richting en kracht van de variabele

          X1 tot Xz = de onafhankelijke / voorspellende variabele


Het berekenen van de regressiecoëfficiënten (btot bz)

Nu je te maken hebt met meerdere voorspellende variabelen, wordt het veel lastiger om de regressielijn te berekenen dan in de univariate regressieanalyse. Je moet rekening houden met de voorspellende kracht van de andere variabelen. Zodra je een variabele toevoegt of verwijdert, verandert het hele 'krachtenveld' waardoor de variabelen in de ene analyse wel en in de andere analyse niet belangrijk blijken te zijn. (Stof tot nadenken! Wat wil je bereiken met je analyse?)


Er zijn drie procedures om de gewichten van de regressiecoëfficiënten vast te stellen: een stappenprocedure in voorwaartse richting, een stappenprocedure in achterwaartse richting, en een in te stellen eigen procedure.

Bij de stappenprocedure in voorwaartse richting berekent de computer eerst de b-waarde voor de voorspellende waarde met de hoogste correlatiecoëfficiënt (want die heeft de meeste samenhang). Daarna berekent de computer de b-waarde voor de voorspellende variabele die daarna de hoogste samenhang vertoont (waarbij eerst de samenhang van de eerste variabele met het de afhankelijke variabele (y) eruit wordt gehaald). En in de derde, vierde en alle erna volgende stappen, wordt er steeds een variabele toegevoegd (waarbij steeds weer eerst de samenhang van de voorgaande variabelen met de afhankelijke variabele eruit wordt gehaald). Meestal is er een afbreekroutine: als een nieuw toe te voegen variabele niet meer substantieel bijdraagt aan de verklaarde variantie, stopt het programma. Het resultaat is een - volgens deze procedure - zo hoog mogelijke multipele correlatiecoëfficiënt.


De stappenprocedure in achterwaartse richting verloopt omgekeerd. De computer start de procedure door alle voorspellende variabelen in de analyse op te nemen. Daarna laat de computer een variabele weg en toetst of er sprake is van substantieel verlies in de verklaarde variantie (de multipele correlatiecoëfficiënt). Mocht dat niet zo zijn, dan wordt er weer een variabele uit het analysemodel weggelaten. De procedure stopt als er wel substantieel verlies optreedt.


De voorwaartse procedure en de achterwaartse procedure leveren meestal hetzelfde resultaat op: er zitten dezelfde variabelen in en de hoogte van de multipele correlatie is hetzelfde.


Als je gebruik maakt van een eigen procedure, stel je zelf een volgorde op van de variabelen die in het analysemodel moeten worden opgenomen, of stel je de afbreekroutine anders in.


Het percentage verklaarde variantie (R2)

Hierboven is de multipele correlatiecoëfficiënt al ter sprake gekomen, maar nog niet uitgelegd. Elders daar ga ik dieper op in, maar voor nu moet je weten dat de R2 het percentage verklaarde variantie is. Bij de univariate regressie (slechts één voorspellende variabele) is het percentage verklaarde variantie overeenkomstig aan r(xy)2 * 100%. Zodra er nog een variabele wordt toegevoegd, kan je nog een beetje meer variantie van y verklaren. Er zijn filosofen die stellen dat als je maar lang genoeg door blijft gaan met het vinden van verklarende variabelen, dat dan alles verklaard kan worden. Daar kan men over twisten.


Hoe dan ook: met de regressieanalyse probeert de onderzoeker zoveel mogelijk variantie van y te verklaren uit de variabelen X1, X2, X3 , X4, .... Er wordt dus steeds een beetje verklarende variantie toegevoegd. Het percentage verklaarde variantie wordt nu niet meer aangeduid met r2
maar met R2. Dit noemt men de multipele correlatiecoëfficiënt. Het maakt duidelijk dat het niet om een samenhang tussen twee variabelen gaat, maar dat er meerdere variabelen verantwoordelijk zijn.


Het niveau van de variabele is van belang

Regressieanalyse kan alleen worden uitgevoerd als zowel de afhankelijke variabele als de onafhankelijke/voorspellende variabelen zich op interval- of ratio niveau bevinden. Als een of meerdere onafhankelijke/voorspellende variabelen zich op nominaal of ordinaal niveau bevinden kan in beginsel de multipele regressieanalyse niet meer worden uitgevoerd. De variabelen die niet voldoen aan deze vereisten, kan je het beste weglaten uit de analyse. Het alternatief is ze op te nemen in de analyses als een dummy-variabele (voor variabelen op nominaal niveau) of als een verkapte variabele op interval niveau (voor variabelen op ordinaal niveau). Nog een alternatief is het analyseren van de gegevens met een programma voor nominale/ordinale data. Om dan tot significante resultaten te komen, zijn vaak grote aantallen onderzoekseenheden nodig. Je moet dan eerder denken in duizendtallen dan in honderdtallen. Mijn ervaring met de bestaande programma's is dan vaak dat ze vastlopen of onzinnige uitkomsten opleveren.

  

Bekijk onze video's over regressieanalyse. Als je die bekeken hebt, kun je het helemaal zelf.


Dat zijn:


Uit de reeks Video's over Methodologie:


Theorieën toetsen met regressianalyse



Uit de reeks Video's over statistiek:






Regressieanalyse met niet continue data



Uit de reeks Video's over SPSS:


OLS en Multipele regressie in SPSS


Mediatie en Moderatie

Mediatie en moderatie in SPSS


Werken met dummy's


Met een kwartaal-, semester of jaarkaart

en krijg toegang tot al onze video's over regressieanalyse.

Hulp nodig?

24/7 online hulp

Word lid van hulp bij onderzoek en krijg toegang tot een grote schat aan informatie.


   Video's over hoe je onderzoek opzet

   Video's over statistiek

   Video's over SPSS

   Handleidingen, tips & trickc

   Vragen stellen en antwoorden krijgen van experts

   Leg contact met onze hulpdiensten


Duur?  Helemaal niet!  Al vanaf € 5,- per maand!

Persoonlijke hulp

Neem (tijdens kantoortijden!) telefonisch contact met ons op. Zo mogelijk helpen we je meteen, maar mocht het niet uitkomen, dan maken we een afspraak.


Bel: 050 - 542 2163


of mail naar: mail@hulp-bij-onderzoek.nl

We wensen je heel veel succes met je onderzoek!




Statistiek is niet moeilijk (als je weet hoe het moet).

Neem een kwartaal-, semester of jaarkaart en krijg per ommegaande 24/7 toegang tot al onze video's.

Vanaf € 5,- per maand

Kwartaalkaart

Beperkte toegangstijd voor:

€ 33,-

3 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 11,- p/m

Semesterkaart

Twee keer zo veel tijd voor:

€ 42,-

6 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 7,- p/m

Jaarkaart

Vier keer zoveel tijd voor:

€ 60,-

12 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 5,- p/m

Missie

Ik vind het belangrijk dat jij goed onderzoek kunt verrichten, want

met goed onderzoek krijg je betere informatie.

Met betere informatie kun je betere beslissingen maken.

Met betere beslissingen, kun je een betere (mooiere, schonere, vriendelijkere ...) wereld maken.

Ik help je graag.