Betrouwbaarheidsinterval
Vaak wil je dat een onderzoeksresultaat staat of geldt voor de hele populatie. Als je een steekproef trekt is het tricky om te stellen dat het je gelukt is. Daarom geef je een betrouwbaarheidsinterval. Deze geeft aan tussen welke waarden een onderzoeksuitkomst waarschijnlijk zal zitten.
Als je een steekproef hebt getrokken kun je er nooit zeker van zijn dat het gemiddelde van de steekproef precies overeenkomt met die van de populatie, want het is onmogelijk om uit alle mogelijk combinaties van elementen uit de populatie steeds maar weer precies hetzelfde resultaat te krijgen.
Stel je je eens voor dat je een populatie hebt van 1000 mensen. Daaruit trek je een steekproef van 200 mensen en noteert van iedereen de leeftijd. Vervolgens bereken je het gemiddelde. Als je opnieuw een steekproef trekt van 200 respondenten, zal je merken dat ondanks de toets op representativiteit de gemiddelde leeftijd van de tweede steekproeftrekking iets zal verschillen van de eerste keer (al was het maar in honderdsten achter de komma).
Welke van deze twee is nu correct? Of zijn ze allebei juist? Dat kun je alleen vaststellen als je van alle 1000 mensen (de hele populatie dus) de leeftijd noteert en het gemiddelde berekent. Waarschijnlijk trek je dan de conclusie dat beide gemiddelden uit de steekproef niet correct zijn.
Kortom, je kunt heel moeilijk stellen dat de gemiddelde leeftijd zoals berekend uit een steekproef precies het gemiddelde is van de populatie. Er zit een marge tussen hetgeen je meet (het steekproefgemiddelde) en hetgeen feitelijk is (het populatiegemiddelde). Dat wil niet zeggen dat je op basis van je steekproef niets over het populatiegemiddelde kunt zeggen. Helemaal zeker kun je echter nooit zijn. Om vanuit een resultaat uit een steekproef iets over de populatie te zeggen, hou je een betrouwbaarheidsmarge aan.
Betrouwbaarheidsinterval voor gemiddelden
De formule voor het berekenen van het betrouwbaarheidsinterval rondom het gemiddelde is deze:
In veel boeken kom je ook deze formule tegen:
Dit laatste is natuurlijk raar, want als je de standaarddeviatie van de populatie weet waarom zou je dan het gemiddelde niet weten? Voor het berekenen van de steekproefgrootte is deze formule echter beter bruikbaar dan de eerste. Misschien dat-ie daarom in veel statistiekboeken staat.
Betrouwbaarheidsinterval voor proporties
Hetzelfde verhaal kunnen we vertellen voor proporties. Als 10% van de steekproef belangstelling heeft voor het product, geldt dat dan voor de hele populatie? Ook nu weer hou je een slag om de arm. Daarvoor gebruik je de volgende formule:
Het berekenen van het betrouwbaarheidsinterval is overigens alleen zinvol als je ook zeker weet dat de steekproef respons representatief is, want anders kun je er behoorlijk naast zitten.
© Foeke van der Zee (2017). hulpbijonderzoek.nl/online-woordenboek
- specialist in Onderzoek en Statistiek
- auteur van boeken over onderzoek