Regressieanalyse

Het SPSS-codeboek

OLS regressieanalyse

De basis van regressieanalyse is correlatierekening.

Als je twee variabelen tegen elkaar uitzet, levert dat een puntenwolk op. Hieronder staan drie voorbeelden:


De samenhang in zo'n puntenwolk kun je beoordelen door de productmoment correlatie uit te rekenen.

In de productmoment correlatie betekent de uitkomst 0 dat er helemaal geen samenhang is en de uitkomst 1 (of -1) dat er een perfecte samenhang is. De perfecte samenhang geeft aan dat er een één op één relatie is, oftewel een volstrekt rechte lijn. Dat is mooi, want als je de score op het ene kenmerk weet, dan weet je de score op het andere kenmerk ook.

Bij een correlatie die niet gelijk is aan 1 ligt dat verband wat losser, maar ook hier geldt (bij een positieve relatie): als de waarde op de ene variabele stijgt dan stijgt de waarde op de andere variabele ook. Je kunt er dus wel iets over zeggen, maar je moet wat slagen om de arm houden.


Stel nu eens dat er een relatie is tussen de lengte van de partners in een huwelijk: lange mensen trouwen met elkaar en korte mensen trouwen met elkaar. Op zich niet eens een rare veronderstelling. Als je nu weet hoe lang de ene persoon is, dan zou je ook iets kunnen zeggen over de lengte van zijn partner. Toch? Maar hoe bereken je dat dan?


In de algebra heeft een rechte lijn de formule van y = a + bx, waarbij de a en de b constanten zijn die de kenmerken van de rechte lijn bepalen. De a geeft aan waar de lijn de y-as passeert (het intercept) en de b geeft aan hoe schuin die lijn loopt (de regressiecoëfficiënt).

Op de middelbare school werd de functie gegeven (bijvoorbeeld: y = 2 + 3x) of leerde men die functie te berekenen uit twee punten (bijvoorbeeld uit de punten [0, 1] en [1, 3] ). In de statistiek gebeurt hetzelfde: je moet de lijn berekenen op grond van de gegeven waarden op de variabelen. Er is echter één groot verschil: je neemt niet willekeurig twee punten, maar je gebruikt alle punten die gevormd worden door de waarden op de beide variabelen. In de illustratie hieronder staan dezelfde puntenwolken als bij de productmoment correlatie. Door die puntenwolk is een rechte lijn getrokken. Dat is de te vinden regressielijn.




Het berekenen van de regressiecoëfficiënten

En hoe bereken je nou die regressielijn uit al die punten? De formule voor het berekenen van de b is de volgende:



In deze formule valt het op dat er veel overeenkomstige berekeningen moeten worden gemaakt als in de productmoment correlatie. Die b en de pm-correlatie zijn inderdaad heel direct aan elkaar gerelateerd. De b zou je ook uit de pm-correlatie kunnen berekenen. De formule daarvoor is de volgende (waarbij het opvalt dat de b bepaald wordt door de standaarddeviaties van en de correlatie tussen de twee variabelen):

En nu je de waarde van b weet kan je ook relatief eenvoudig de waarde van a vinden:


Intercept van de regressielijn


De formule voor de lijn die nu ontstaat, is de beste rechte lijn: de afwijking van alle punten die in ogenschouw zijn genomen ten opzichte van deze lijn is het kleinst. Elke willekeurige andere lijn zal een grotere afwijking laten zien. Daarom noemt men dit de ordinary least square (OLS-) regressie. Ordinary is Engels en het betekent niet ordinaire maar gewone. Het is dus de gewone kleinste kwadraten methode voor regressieanalyse.


Ter illustratie een voorbeeld. Stel je moet een voorspelling maken over de lengte van een vrouw. Uit onderzoek blijkt dat er een regressielijn geldt van y = -0,10 + 1,02x, waarbij de y staat voor de lengte van de vrouw en de x voor de lengte van de partner. Als je weet dat de lengte van de partner 1,98 meter is, wat schat je dan als lengte van de vrouw?

Je kunt daarvoor het beste de gegevens in de formule invullen. De uitkomst is 1,91 meter. En als de partner een lengte heeft van 1,65? Dan zal de vrouw vermoedelijk een lengte hebben van 1,58. Het zal in de praktijk nooit helemaal kloppen, maar de voorspelling is wel beter dan wanneer je helemaal niets zou weten.


Is dit nou handig om te weten? Het bovenstaande voorbeeld was met opzet nogal simpel om het principe van regressieanalyse duidelijk te maken. Daarom ook nog een ander voorbeeld.

Als je weet dat met het ouder worden de zorgkosten omhoog gaan, dan zou je een voorspelling kunnen maken hoe hoog de kosten over een bepaalde tijd zullen zijn. De zorgkosten zijn per individu te bepalen en gesommeerd over de individuen voor een hele samenleving.

Zeer waarschijnlijk is niet alleen de leeftijd van de persoon van invloed op de zorgkosten, maar spelen ook technische ontwikkelingen, persoonlijke omstandigheden en nog veel meer aspecten een rol. Zodra je meerdere aspecten in je analyse betrekt, doe je niet meer een univariate regressieanalyse maar een multivariate regressieanalyse. De gangbare term voor multivariate regressieanalyse is multipele regressieanalyse.


Nu je weet hoe het zit met de gewone regressieanalyse, kunnen we verder met de multipele regressieanalyse. >>>

  

Bekijk onze video's over regressieanalyse. Als je die bekeken hebt, kun je het helemaal zelf.


Dat zijn:


Uit de reeks Video's over Methodologie:


Theorieën toetsen met regressieanalyse




Uit de reeks Video's over statistiek:






Regressieanalyse met niet continue data



Uit de reeks Video's over SPSS:


OLS en Multipele regressie in SPSS


Mediatie en Moderatie

Mediatie en moderatie in SPSS


Werken met dummy's




Neem een kwartaal-, semester of jaarkaart

en krijg toegang tot al onze video's over regressieanalyse.

Hulp nodig?

24/7 online hulp

Neem een kwartaal-, semester of maandkaart en krijg 24/7 toegang tot al onze video's:


   Video's over hoe je onderzoek opzet

   Video's over statistiek

   Video's over SPSS

   Handleidingen, tips & trickc

   Stel vragen en krijg antwoorden van experts

   Leg contact met onze hulpdiensten


Duur?  Helemaal niet!  Al vanaf € 5,- per maand!

Persoonlijke hulp

Neem (tijdens kantoortijden!) telefonisch contact met ons op. Zo mogelijk helpen we je meteen, maar mocht het niet uitkomen, dan maken we een afspraak.


Bel: 050 - 542 2163


of mail naar: mail@hulp-bij-onderzoek.nl

We wensen je heel veel succes met je onderzoek!




Statistiek is niet moeilijk (als je weet hoe het moet).

Met een kwartaal-, semester-, of jaarkaart het je 24/7 toegang tot al onze video's over methodologie, statistiek en SPSS.

Vanaf € 5,- per maand

Kwartaalkaart

Beperkte toegangstijd voor:

€ 33,-

3 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 11,- p/m

Semesterkaart

Twee keer zoveel tijd voor:

€ 42,-

6 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 7,- p/m

Jaarkaart

Vier keer zoveel tijd voor:

€ 60,-

12 maanden toegang tot:


alle video's over methodologie

alle video's over statistiek

alle video's over SPSS

alle papers met handleidingen


stel je vragen in de community

krijg antwoord van experts


leg contact met onze experts


Slechts € 5,- p/m

Missie

Ik vind het belangrijk dat jij goed onderzoek kunt verrichten, want

met goed onderzoek krijg je betere informatie.

Met betere informatie kun je betere beslissingen maken.

Met betere beslissingen, kun je een betere (mooiere, schonere, vriendelijkere ...) wereld maken.

Ik help je graag.