Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics
Multiple Responses - meerdere antwoorden onmogelijk?
- Leestijd: 10 minuten
- Niveau: Beginner
- Voorkennis: Basiskennis IBM SPSS Statistics
Samenvatting
- Omgaan met Multiple Responses
- Overzichtelijk presenteren
- Inzicht in de statistische verschillen
- Validatie van resultaten
Auteur(s)
- Jos den Ronden, Data Analyse Academie
- Rianne Severin-Hotting, DASC
Verder verdiepen?
Een essentieel aspect van gegevensanalyse is het vermogen om informatie op een heldere en begrijpelijke manier te presenteren. In enquêtes is het vaak zo dat respondenten meerdere antwoorden kunnen geven op één vraag. Dit creëert een uitdaging: hoe presenteer je deze gegevens inzichtelijk en overzichtelijk?
Verschillende procedures binnen IBM SPSS Statistics kunnen met multipele response sets omgaan; binnen de basismodule, IBM SPSS Statistics Base, heb je de procedure Multiple Response en binnen de add-on module Custom Tables is er de optie Multiple Response Sets. In dit artikel richten we ons op de procedure ‘Multiple Response’ uit de basismodule, waarbij we ons beperken tot multipele dichotomieën.
Waarom zijn Multiple Response Sets belangrijk?
Laten we het concept van een Multiple Response Set verkennen aan de hand van een voorbeeld. Stel je voor dat je een enquête hebt afgenomen met daarin de volgende vraag en antwoorden:
Welke Sociale Media gebruik je? (meer dan 1 antwoord mogelijk)
- X (Twitter)
- TikTok
- Snapchat
Na de gegevens verzameld te hebben wil je weten wat de meest populaire social media zijn. En hier ontstaat het probleem: respondenten kunnen meerdere social media noemen. De eerste uitdaging is om al deze variabelen in één overzichtelijke tabel te presenteren. Hoewel je met basis functionaliteiten zoals Frequencies weliswaar afzonderlijke tabellen kunt genereren en deze in Excel kunt samenvoegen, is dat niet de meest efficiënte manier om dit te doen.
Bovendien, omdat elk antwoord afzonderlijk wordt gerapporteerd, ontbreekt de mogelijkheid om statistische uitspraken te doen over welke combinaties vaak voorkomen en om de frequenties en percentages van deze combinaties te berekenen.
Werken met Multiple Response Sets: Dichotomieën en Categorieën
IBM SPSS Statistics biedt een oplossing in de vorm van Multiple Response. Deze handige functie bundelt alle antwoorden tot één enkele “variabele”. (“Variabele” omdat we zullen zien dat het geen fysieke variabele in het databestand is.) Hierdoor kun je snel en efficiënt zien wat het meest gegeven antwoord is en welke combinaties van antwoorden vaak voorkomen, met de bijbehorende percentages. Zodoende worden verbanden inzichtelijk, die bovendien statistisch onderbouwd kunnen worden.
De sets kunnen op twee manieren worden gebruikt: met dichotome variabelen of met gecodeerde categorieën.
- Dichotome Multiple Response Sets: Hierbij hebben we voor elk antwoord een variabele gemaakt, waarbij elke variabele slechts twee categorieën heeft, 0 als de respondent het desbetreffende antwoord niet gekozen heeft en 1 als de respondent het desbetreffende antwoord wél gekozen heeft. In ons voorbeeld zouden we 4 variabelen hebben; iemand die bijvoorbeeld Facebook en TikTok scoort een 1 op de eerste en een 1 op de vierde variabele, en een 0 op de tweede en derde variabele. Dit type set is handig omdat je alleen de positieve antwoorden (1 in dit geval) hoeft te tellen.
- Categorie Multiple Response Sets: Bij deze sets hebben meerdere variabelen dezelfde codering. In de lijn van het voorgaande voorbeeld: stel je voor dat de vraag luidde: “Noem de twee social media die je het vaakst gebruikt”, met dezelfde antwoordmogelijkheden als hiervoor. Men kan dus hoogstens twee social media noemen en daarom volstaan met twee variabelen om de antwoorden te coderen; beide variabelen hebben dan hetzelfde codeerschema: 1=Facebook, 2=X (Twitter), 3=Instagram, 4=TikTok. Iemand die het vaakst Facebook en TikTok gebruikt krijgt een 1 op de eerste variabele en een 4 op de tweede variabele.
Categorie Multipele Response Sets worden vaak gebruikt om spontane naamsbekendheid te meten. Zo kan een vraag zijn: Noem drie merken pindakaas, waarbij men merken pindakaas uit het hoofd moet noemen (dus zonder dat men pindakaas merken in een lijstje ziet). Er kunnen wel 17 merken pindakaas worden genoemd door alle respondenten samen, maar gegeven de vraagstelling kan niemand meer dan 3 merken noemen. Om de antwoorden te coderen heb je dan ook maar 3 variabelen nodig, alle met dezelfde codering, in plaats van 17 variabelen die elk 0/1 zijn gecodeerd en grotendeels 0 zijn.
Hoe werkt Multiple Response Sets in IBM SPSS Statistics?
Laten we kijken naar de concrete stappen voor het werken met Multiple Response in IBM SPSS Statistics. We werken met een voorbeeld databestand genaamd survey_sample.sav, een survey gehouden in 2008 onder 2,832 Amerikanen. Dit voorbeeldbestand is beschikbaar in de Samples map, wat een submap is van de map waarin IBM SPSS Statistics is geïnstalleerd. Als je dat wilt, kun je de stappen die we hier presenteren zelf uitvoeren in IBM SPSS Statistics met behulp van dit voorbeeldbestand.
In dit onderzoek is de vraag gesteld welke nieuwsbronnen men gebruikt, waarbij men meerdere nieuwsbronnen kon noemen. Men kon een of meer van de volgende nieuwsbronnen kiezen: krant (variabele news1), tijdschriften (news2), TV (news3), radio (news4), of internet (news5).
Wanneer we een standaard frequentie analyse uitvoeren op de variabele news 1, zien we dat 805 respondenten, ofwel 28,4% van de 2,832 respondenten het nieuws uit de krant haalt. Onthoud dit getal voor straks!
Met de procedure Multiple Response uit de basismodule kunnen we de nieuwsbronnen efficiënt in één tabel presenteren:
- Definieer de set: Kies in het SPSS menu ‘Analyze’ -> ‘Multiple Response’ -> ‘Define Variable Sets’. Selecteer de relevante variabelen (news1 tot news5), geef de set de naam NIEUWSBRONNEN en kies de juiste codering (Dichotomies, counted value = 1).
- Bereken de frequenties: Kies ‘Analyze’ -> ‘Multiple Response’ -> ‘Frequencies’. Selecteer de gedefinieerde set en bekijk de resultaten.
Het mysterie van de niet-kloppende percentages
Wanneer we de frequentie analyse uitvoeren over de Multiple Response set komt er een interessant, maar ook verwarrend aspect naar voren. Het totaal aantal respondenten in de enquête is bijvoorbeeld niet 2,832 maar 3,594. Dit komt omdat dit totaal het aantal keren weerspiegelt dat een nieuwsbron is genoemd, niet het aantal respondenten.
Dit totaal van 3,594 verklaart ook de percentages in de Responses kolom: 805 is 22,4% van 3,594. Interpretatie: Van alle nieuwsbronnen die men genoemd heeft betrof het in 22,4% van de gevallen de krant. Het voordeel van percentages gebaseerd op de responses is dat het totaal nu uit komt op 100% (3,594 positieve responses is 100% van alle 3,594 responses).
In plaats van de percentages te baseren op de responses, kun je ze ook baseren op de cases (de respondenten). En dan zie je iets heel merkwaardigs: in de oorspronkelijke uitvoer van Frequencies zagen we dat 28,4% (805 van alle 2,832 respondenten) het nieuws uit de krant haalt. In de nieuwe tabel staat echter in de kolom Percent of Cases, een percentage van 38,7%.
Geef jezelf een moment om dit te verklaren. Welnu, het totaal aantal cases waarop de percentages zijn gebaseerd is niet het totaal aantal cases in het databestand, maar is het aantal cases dat minstens 1 nieuwsbron heeft genoemd. Je kunt dan ook niet zeggen dat 38,7% van alle respondenten de krant heeft genoemd; we moeten zeggen dat 38,7% van al diegenen die minstens één nieuwsbron heeft genoemd, de krant heeft genoemd
Verificatie van resultaten
Je kunt bovenstaande resultaten verifiëren door een variabele te maken, genaamd ‘GEENNIEUWSBRON’, die een waarde van 1 krijgt als er geen enkele nieuwsbron is genoemd en 0 in alle andere gevallen. Dit kun je snel bereiken met de volgende stappen:
- Kies ‘Transform’ –> ‘Compute’.
- Typ, onder ‘Target Variable’ de naam van deze nieuwe variabele, GEENNIEUWSBRON.
- Klik op ‘Type & Label’ en typ ‘GEEN ENKELE NIEUWSBRON GEBRUIKT’ bij ‘Label’, en klik dan op ‘Continue’.
- Onder ‘Numeric Expression’, typ ‘SUM(news1 TO news5) = 0’ (of “paste” deze uitdrukking vanuit de variabelenlijst en functies).
- Klik op ‘OK’.
De numerieke expressie evalueert of de som van de vijf variabelen ‘news1’ tot ‘news5’ gelijk is aan 0. Het resultaat is 1 als er geen enkele nieuwsbron is genoemd, en 0 als ten minste één nieuwsbron is genoemd. Dit is een handige manier om vast te stellen of iemand überhaupt een nieuwsbron heeft genoemd. Zorg ervoor dat de individuele variabelen ‘news1’ tot ‘news5’ zijn gecodeerd als 0 en 1 voor deze expressie om correct te werken.
Als je een frequentieverdeling van deze nieuwe variabele bekijkt, zul je ontdekken dat bijvoorbeeld 751 respondenten geen enkele nieuwsbron hebben genoemd, terwijl 2,081 respondenten minstens één nieuwsbron hebben genoemd. Dit is een waardevolle controlestap om te zorgen dat de berekening correct is.
Waarom is dit belangrijk? Het stelt je in staat om de percentages in de Multiple Response-tabel te valideren en ervoor te zorgen dat ze overeenkomen met andere berekeningen. Als je de nieuwe variabele ‘GEENNIEUWSBRON’ toevoegt aan de Multiple Response-set en opnieuw de Multiple Response-tabel genereert, zul je merken dat het percentage van respondenten dat de krant noemt nu weer in overeenstemming is met het percentage dat eerder is berekend met de ‘Frequencies’-functie, namelijk 28.4%. Dit bevestigt de nauwkeurigheid van de resultaten.
De kracht van Custom Tables
IBM SPSS Statistics biedt geavanceerdere mogelijkheden voor gegevenspresentatie via de Custom Tables-module. Hiermee kun je uitgebreidere analyses uitvoeren, zoals het kruisen van Multiple Response Sets met andere variabelen en het aanpassen van de opmaak van tabellen. Het verschil tussen het definiëren van Multiple Response Sets in de basismodule en de Custom Tables-module is dat de set in de Custom Tables-module wordt opgeslagen in het databestand.
Dit artikel biedt slechts een introductie tot het gebruik van Multiple Response Sets in IBM SPSS Statistics. Er zijn nog veel meer mogelijkheden om deze tool te benutten, zoals het presenteren van sets met gecodeerde categorieën en het toepassen van geavanceerde statistische tests.
Als je meer wilt leren over Custom Tables en alle mogelijkheden die het biedt, raden we je aan om onze cursus “Custom Tables met SPSS Statistics” te volgen. Wil je meer weten over hoe je efficiënt je data prepareert (zie het Compute voorbeeld in dit artikel), zie dan onze cursus Data Preparatie met IBM SPSS Statistics.
Happy learning en stay tuned!
Jos den Ronden, Data Scientist, Data Analyse Academie
Rianne Severin-Hotting, Data Scientist, DASC B.V.
Behapbaar beginnen met IBM SPSS Custom Tables?
We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.