Multipele regressieanalyse

Multipele regressieanalyse is een statistische analysetechniek om de variantie in een variabele te verklaren uit meerdere variabelen.

De situatie van OLS regressieanalyse

Als gegevens aan elkaar gerelateerd zijn (vast te stellen door het bepalen van de samenhang in de vorm van een productmoment correlatie), dan kun je voorspellingen doen. Bij de univariate regressieanalyse is daarvoor het voorbeeld van huwelijkspartners gegeven. Je kan een betere voorspelling doen over de lengte van de vrouw als men de lengte van de man weet. De relatie tussen y en x is in een algebraïsche formule op te schrijven: y = a + b₁X₁ waarbij: y = afhankelijke variabele a = intercept b1 = de richting en kracht van de variabele X₁ = de onafhankelijke / voorspellende variabele Het berekenen van de a en b1 gebeurt met behulp van de formules zoals gepresenteerd bij de univariate regressieanalyse.

De situatie van multipele regressie

Meestal is het niet één aspect dat bepalend is, maar is er een hele reeks aspecten. Bij een voorspelling welk inkomen een persoon heeft, zou je zonder enige nadere kennis het beste kunnen kiezen voor het algemeen gemiddelde. De voorspelling wordt beter als ook bekend is welke opleiding de persoon heeft gevolgd (hoger opgeleiden verdienen gewoonlijk meer), diens leeftijd (oudere mensen verdienen gewoonlijk meer), het milieu van herkomst, de opleiding van de vader, de opleiding van de moeder, het beroep van de vader, het beroep van de moeder (wie voor een dubbeltje geboren is ....) . Deze en nog veel meer factoren zijn op de een of andere manier van invloed op het inkomen. Als er een regressielijn opgesteld zou moeten worden, dan zou de volgende algemene formule van toepassing zijn: y = a + b₁X₁ + b₂X₂ + b₃X₃ + .......... + b_zX_z waarbij: y = afhankelijke variabele a = intercept b₁ tot b_z = de richting en kracht van de variabele X₁ tot X_z = de onafhankelijke / voorspellende variabele

Het berekenen van de regressiecoëfficiënten (b₁ tot b_z)

Nu je te maken hebt met meerdere voorspellende variabelen, wordt het veel lastiger om de regressielijn te berekenen dan in de univariate regressieanalyse. Je moet rekening houden met de voorspellende kracht van de andere variabelen. Zodra je een variabele toevoegt of verwijdert, verandert het hele 'krachtenveld' waardoor de variabelen in de ene analyse wel en in de andere analyse niet belangrijk blijken te zijn. (Stof tot nadenken! Wat wil je bereiken met je analyse?) Er zijn drie procedures om de gewichten van de regressiecoëfficiënten vast te stellen: een stappenprocedure in voorwaartse richting, een stappenprocedure in achterwaartse richting, en een in te stellen eigen procedure. Bij de stappenprocedure in voorwaartse richting berekent de computer eerst de b-waarde voor de voorspellende waarde met de hoogste correlatiecoëfficiënt (want die heeft de meeste samenhang). Daarna berekent de computer de b-waarde voor de voorspellende variabele die daarna de hoogste samenhang vertoont (waarbij eerst de samenhang van de eerste variabele met het de afhankelijke variabele (y) eruit wordt gehaald). En in de derde, vierde en alle erna volgende stappen, wordt er steeds een variabele toegevoegd (waarbij steeds weer eerst de samenhang van de voorgaande variabelen met de afhankelijke variabele eruit wordt gehaald). Meestal is er een afbreekroutine: als een nieuw toe te voegen variabele niet meer substantieel bijdraagt aan de verklaarde variantie, stopt het programma. Het resultaat is een - volgens deze procedure - zo hoog mogelijke multipele correlatiecoëfficiënt.

De stappenprocedure in achterwaartse richting verloopt omgekeerd. De computer start de procedure door alle voorspellende variabelen in de analyse op te nemen. Daarna laat de computer een variabele weg en toetst of er sprake is van substantieel verlies in de verklaarde variantie (de multipele correlatiecoëfficiënt). Mocht dat niet zo zijn, dan wordt er weer een variabele uit het analysemodel weggelaten. De procedure stopt als er wel substantieel verlies optreedt. De voorwaartse procedure en de achterwaartse procedure leveren meestal hetzelfde resultaat op: er zitten dezelfde variabelen in en de hoogte van de multipele correlatie is hetzelfde. Als je gebruik maakt van een eigen procedure, stel je zelf een volgorde op van de variabelen die in het analysemodel moeten worden opgenomen, of stel je de afbreekroutine anders in.

Het percentage verklaarde variantie (R²)

Hierboven is de multipele correlatiecoëfficiënt al ter sprake gekomen, maar nog niet uitgelegd. Elders daar ga ik dieper op in, maar voor nu moet je weten dat de R² het percentage verklaarde variantie is. Bij de univariate regressie (slechts één voorspellende variabele) is het percentage verklaarde variantie overeenkomstig aan r(xy)2 * 100%. Zodra er nog een variabele wordt toegevoegd, kan je nog een beetje meer variantie van y verklaren. Er zijn filosofen die stellen dat als je maar lang genoeg door blijft gaan met het vinden van verklarende variabelen, dat dan alles verklaard kan worden. Daar kan men over twisten. Hoe dan ook: met de regressieanalyse probeert de onderzoeker zoveel mogelijk variantie van y te verklaren uit de variabelen X₁, X₂, X₃, X₄, .... Er wordt dus steeds een beetje verklarende variantie toegevoegd. Het percentage verklaarde variantie wordt nu niet meer aangeduid met r² maar met R². Dit noemt men de multipele correlatiecoëfficiënt. Het maakt duidelijk dat het niet om een samenhang tussen twee variabelen gaat, maar dat er meerdere variabelen verantwoordelijk zijn.

Het niveau van de variabele is van belang

Regressieanalyse kan alleen worden uitgevoerd als zowel de afhankelijke variabele als de onafhankelijke/voorspellende variabelen zich op interval- of ratio niveau bevinden. Als een of meerdere onafhankelijke/voorspellende variabelen zich op nominaal of ordinaal niveau bevinden kan in beginsel de multipele regressieanalyse niet meer worden uitgevoerd. De variabelen die niet voldoen aan deze vereisten, kan je het beste weglaten uit de analyse. Het alternatief is ze op te nemen in de analyses als een dummy-variabele (voor variabelen op nominaal niveau) of als een verkapte variabele op interval niveau (voor variabelen op ordinaal niveau). Nog een alternatief is het analyseren van de gegevens met een programma voor nominale/ordinale data. Om dan tot significante resultaten te komen, zijn vaak grote aantallen onderzoekseenheden nodig. Je moet dan eerder denken in duizendtallen dan in honderdtallen. Mijn ervaring met de bestaande programma's is dan vaak dat ze vastlopen of onzinnige uitkomsten opleveren.