Statistisch significantie beoordelen

Wat is het probleem?

Sommigen stellen dat als er een statistisch significante uitkomst is, dat het dan waar is. Dat is mijn inziens veel te kort door de bocht.


Dat is onjuist omdat statistische uitkomsten zijn te manipuleren. Bovendien kan het een nipt statistisch significant verschil zijn waar je niet al te veel waarde aan moet hechten.


Hoe moet je statistische uitkomsten beoordelen? Er zijn 3 stappen:

Hoe pak je het aan?

1) Je moet de uitkomst beoordelen op grond van de gestelde betrouwbaarheid, de gevonden kritieke waarde en de bijbehorende kanswaarde, en het aantal onderzoeks-eenheden.


2) Je moet de uitkomst beoordelen door deze te vergelijken met andere uitkomsten in het onderhanden onderzoek.


3) Je moet de uitkomst beoordelen door deze te vergelijken met ander onderzoek, of de uitkomsten verklaren met behulp van een theorie of eventueel de common sense.

Let op de statistische waarden

Het is onder onderzoeksmethodologen een gevleugelde uitspraak dat niet ieder statistisch significant verschil een relevant verschil is. Oftewel: je moet niet alleen letten op statistisch significante verschillen. Soms is het juist gewenst dat een toets geen significant verschil oplevert. Als je bijvoorbeeld toetst of de respons representatief is, wil je liever geen statistisch significant verschil zien.


Bij het interpreteren van de toetsresultaten hou je rekening met het significantieniveau. Gewoonlijk hanteer je een standaardnorm, namelijk significant op 5% niveau, 1% of 0,1%. Vaak is vooraf niet duidelijk aangegeven of men eenzijdig of tweezijdig toetst. Ook achteraf wordt dit vaak niet geëxpliciteerd, waardoor je er van uit mag gaan dat er eigenlijk tweezijdig getoetst is op een significantie niveau van 10%, 2% en 0,2%. In de praktijk van het onderzoek worden per onderzoek vaak tientallen, regelmatig zelfs honderdtallen, en soms zelfs enkele duizenden analyses uitgevoerd. Het is niet zo praktisch om vooraf voor alle toetsen het significantieniveau vast te stellen. Uit praktische overwegingen ga je eerst de toetswaarden berekenen en ga je daarna kijken welke het significantieniveau van 5% of meer overschrijden.


Als een toets een significant verschil oplevert, wordt vervolgens gekeken naar de berekende toetsgrootheid en de erbij horende kanswaarde. Daarmee stel je vast of het een nipt significant verschil is, of dat het een behoorlijk significant verschil is. Aan het laatste kun je meer waarde hechten dan aan het eerste. Het alleen letten op significante verschillen is niet altijd terecht. Soms zou je - al dan niet vooraf expliciet opgesteld - tussen groepen een significant verschil verwachten. Dat dat nu niet gevonden wordt, zou je eveneens opmerkelijk kunnen noemen.


Daarna ga je kijken naar het aantal onderzoekseenheden en de verdeling ervan over de groepen. Bij het vaststellen van de steekproefgrootte heb je aan moeten gegeven hoe groot de steekproef minimaal zou moeten zijn om statistisch significante verschillen aan te kunnen tonen. Het komt erop neer dat als de respons maar groot genoeg is, ieder verschil tussen twee of meer groepen statistisch is aan te tonen. Het tegengestelde geldt echter ook: als de respons te klein is, zijn geen statistisch significante verschillen aan te tonen. Er is ook aangegeven dat de manier van meten van invloed is: voor variabelen op interval/ratio niveau zijn minder responsaantallen nodig dan voor variabelen op categoraal/ordinaal niveau. Het is echter onzinnig om voor ieder gemeten meting een eigen onderzoek op te zetten met de gewenste aantallen respondenten. Je zal moeten schipperen tussen theoretisch wenselijk en praktisch uitvoerbaar. Dit betekent dat de responsgrootte een relevant onderdeel uitmaakt van de interpretatie van de resultaten.


Bij de verdeling van de onderzoekseenheden over de groepen moet je er op letten dat er aan de eis van het minimale aantal onderzoekseenheden per groep wordt voldaan en dat de onderzoekseenheden redelijk evenredig verdeeld zijn. Mocht hieraan niet worden voldaan, dan levert dat een instabiel onderzoeksresultaat op: de ene keer levert de analyse wel een statistisch significant verschil op en de ander keer niet. Als een groep te klein is, kan je deze in gedachten ophogen en proberen na te gaan of er dan een statistisch significant verschil zou zijn. Het volgende voorbeeld is in dit verband erg illustratief: in een onderzoek met behulp van schriftelijke enquêtes bleek een aantal verbanden significant. Het rapport was eigenlijk al klaar. Op het laatste moment besloten de onderzoeker een aantal te laat ontvangen vragenlijsten alsnog op te nemen in de analyses, want hoe meer respons hoe beter, toch? Nu bleek een aantal significante verschillen niet meer significant te zijn, terwijl andere verbanden juist wel significant werden. Kortom, door ook het aantal onderzoekseenheden in het oordeel op te nemen, kan men beter beslissen of een (niet) significante uitkomst ook een relevante uitkomst is.


Ter aanvulling zou je ook de power van de statistische toets kunnen uitrekenen. Om onduidelijke redenen wordt dit bijna altijd nagelaten. Kennelijk voegt het te weinig toe om een andere beslissing te nemen. In twijfelgevallen levert deze analyse nadrukkelijk wel een zinvolle bijdrage.

Wat komt er nog meer uit je onderzoek?

Gewoonlijk doe je geen onderzoek met slechts één of twee aan elkaar te relateren variabelen. Meestal worden veel meer aspecten tegelijkertijd gemeten. In onderzoek worden vaak tientallen, regelmatig honderdtallen en soms zelfs enkele duizenden statistische analyses uitgevoerd. Het zal niemand verwonderen dat er dan ook resultaten zijn die ‘toevallig’ statistisch significant zijn; oftewel: hoe meer analyses er uitgevoerd worden des te groter is de kans dat er een statisch significant resultaat tussen zit. De Groot noemt dit kanskapitalisatie.


Er is wel eens gesteld dat bij toetsing op een significantieniveau van 5% één op de twintig analyses ‘toevallig’ een significant resultaat oplevert, en dat dit bij toetsing op 1% één op de honderd is. Naar ervaring klopt dit niet helemaal. Mogelijk is deze regel wel geldig als men toevalscijfers aan de variabele toekent, maar in onderzoek wordt veel waarde gehecht aan de validiteit van de gegevens waardoor de verkregen data niet betekenisloos zijn. De gevonden significante verschillen zijn theoretisch - vooraf dan wel achteraf - meestal goed te verklaren. Vaak vind je reeksen significante verschillen en reeksen niet-significante verschillen. Het wil wel eens voorkomen dat in een reeks niet-significante verschillen een aspect net wel significant is, maar uit het grote geheel zal de onderzoeker meestal tot de slotsom komen dat er weliswaar een significant verschil is gevonden, maar dat dat verschil niet relevant is. Het is een toevalstreffer geweest dat er een statistisch significant verschil is geconstateerd.

Wat hebben anderen voor resultaten?

Het laatste aspect voor het beoordelen van de statistische resultaten hangt met de vorige samen. Een gevonden verschil of een gevonden verband zal je theoretisch moeten kunnen interpreteren. Je kan daarvoor te rade gaan bij bevindingen uit ander onderzoek. Als in ander onderzoek nooit een verschil is aangetoond tussen twee variabelen en in het onderhanden onderzoek is dat wel het geval, dan moet je je afvragen of het een ‘toevallig’ statistisch verschil is, of dat het onderhanden onderzoek inhoudelijk zoveel beter (methodologisch valide) is dan het andere onderzoek, zodat nu eens wel het verschil kon worden aangetoond. Deze relatie geldt natuurlijk ook andersom: als elders altijd een significant verband is aangetoond en in het onderhanden onderzoek niet, ook dan zal je je moeten afvragen waar dat aan ligt. Is het onderhanden onderzoek beter of juist slechter in vergelijking met andere, of is er iets anders aan de hand?


Veel onderzoek is geen replica onderzoek. Het merendeel van het onderzoek is uit op het vinden van iets nieuws en niet op het herhalen van onderzoek dat al eens is uitgevoerd. Daarom zijn de onderzoeksresultaten meestal niet goed te vergelijken met de resultaten uit ander onderzoek. Het enige waar men de onderzoeksresultaten mee kan vergelijken is die van een theoretisch verwachte uitkomst. Oftewel: is er een theorie voorhanden waarmee men de onderzoeksresultaten kan verklaren. Als er zelfs geen theorie voorhanden is, moet men mogelijk zelfs terugvallen op common sense: is het logisch verklaarbaar dat men deze onderzoeksresultaten vindt? Mogelijk leidt dit tot het poneren van een nieuwe theorie.

Heb jij wat hulp nodig?

24/7 online hulp!

Word lid van onze community en krijgt toegang tot een grote schat aan informatie. Al vanaf € 5,- per maand!

Word lid van Hulp bij Onderzoek  Video's over onderzoek en methodologie

Word lid van Hulp bij Onderzoek  Video's over statistiek

Word lid van Hulp bij Onderzoek  Video's over SPSS

Word lid van Hulp bij Onderzoek  Papers met handleidingen

Word lid van Hulp bij Onderzoek  Stel vragen in de community krijg antwoord van experts

Word lid van Hulp bij Onderzoek  Leg contact met hulpdiensten

Afspraak maken?

Neem (tijdens kantoortijden!) telefonisch contact met ons op. Zo mogelijk helpen we je meteen, maar mocht het niet uitkomen, dan maken we een afspraak.


Bel: 050 - 542 2163


of mail naar: mail@hulp-bij-onderzoek.nl

We wensen je heel veel succes met je onderzoek!

Missie

Ik vind het belangrijk dat jij goed onderzoek kunt verrichten, want

met goed onderzoek krijg je betere informatie.

Met betere informatie kun je betere beslissingen maken.

Met betere beslissingen, kun je een betere (mooiere, schonere, vriendelijkere ...) wereld maken.

Ik help je graag.