DASC

Analyseer je data op niveau!

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Analyseer je data op niveau

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

Bent u ook ooit verdwaald in de wereld van IBM SPSS Statistics, met vragen zoals;

  • Waarom kan ik een specifieke variabele niet vinden in het Visual Binning dialoogvenster?
  • Hoe kan het dat ik voor een variabele alleen een histogram kan maken en geen staafdiagram?
  • Welke statistische toets moet ik gebruiken voor het onderzoeken van verbanden tussen variabelen?
  • Wat is het onderscheid tussen Binary Logistic Regression, Multinominal Logistic Regression, Ordinal Regression en Linear Regression?
  • Wat is het verschil tussen een factor en een covariaat in Variantie Analyse? 
  • En waarom is het meetniveau van een variabele eigenlijk zo belangrijk?

Om antwoord te kunnen geven op deze vragen is enkel het “type” van de variabele relevant. In de wereld van de statistiek wordt dit het meetniveau (measurement level) genoemd. 

In dit artikel gaan we dieper in op deze meetniveaus. We zetten de verschillende meetniveaus overzichtelijk op een rijtje en laten zien hoe je een meetniveau kan toekennen aan een variabele in je dataset. Daarnaast staan we stil bij de, soms verwarrende, veel gebruikte termen rondom meetniveaus en geven tenslotte antwoord op enkele van de bovenstaande vragen in het kader van de besproken concepten. 

Meetniveaus in je SPSS dataset

Als voorbeeld gebruiken we in dit artikel een dataset met gegevens die verzameld zijn voor een enquête naar politieke voorkeur. Elke rij bevat de gegevens van één respondent, in IBM SPSS Statistics worden de rijen ook wel cases genoemd. De kolommen, ofwel variabelen, zijn de kenmerken waarnaar gevraagd is. 

Let op de pictogrammen die voor de variabelnamen staan. Deze geven het meetniveau van de variabele aan. Belangrijk om op te merken; oudere versies van IBM SPSS Statistics tonen deze pictogrammen mogelijk nog niet. 

De variabelen waarvan de waarden categorieën voorstellen zijn in deze dataset gecodeerd (regio, geslacht, leeftijdsklasse en politieke voorkeur). Deze  manier van coderen is door de jaren heen in de ontwikkeling van IBM SPSS Statistics gegroeid, door codes in te voeren in plaats van de tekst van categorieën kon men namelijk veel tijd besparen bij het invoeren van data. Bijvoorbeeld, code 1 bij REGIO kan betekenen dat iemand uit het noorden komt, GESLACHT 1 kan een vrouw representeren, LEEFTIJDSKLASSE 1 een jongere en de waarde 1 bij POLITIEKE_VOORKEUR iemand met een voorkeur voor een linkse partij.

TIP: In plaats van de codes kunt u ook de labels van de waarden in de datacellen laten zien; met de knop wissel je van codes naar value labels. 

De waarden van INKOMEN zijn geen codes voor categorieën, maar geven het feitelijke inkomen weer. Zo heeft de eerste respondent een inkomen van €34.000,-.

Het belang van meetniveaus

In het onderzoeksrapport voor deze enquête zult u waarschijnlijk niet vermelden dat de gemiddelde regio 2,9 is. Dit zal immers niemand iets zeggen; daarentegen zou het wel relevant zijn om te vermelden dat het gemiddelde inkomen €35.765,- bedraagt. 

Het idee dat het “type” van de variabele bepaalt welke statistiek zinvol is, is zeer intuïtief: voor een variabele als REGIO gebruik je andere statistieken dan voor een variabele als INKOMEN. Als we REGIO niet hadden gecodeerd, maar de waarden als ‘Noord’, ‘Oost’, enzovoort hadden gelaten, zou het berekenen van een gemiddelde überhaupt niet mogelijk zijn geweest. Bovendien hebben we om het verband tussen GESLACHT en POLITIEKE_VOORKEUR te onderzoeken andere statistische maten nodig dan om het verband tussen GESLACHT en INKOMEN te onderzoeken.

 Het begrip meetniveau verduidelijkt deze intuïtieve notie van “type” variabele en bepaalt daarmee welke analyses relevant zijn en vooral welke niet. 

Dit impliceert ook dat het meetniveau van een variabele zijn invloed heeft op het verzamelen van gegevens. Als we bijvoorbeeld INKOMEN niet als meetwaarden zouden hebben verzameld, maar eenvoudigweg genoteerd hadden of iemand minder of meer verdient dan €25.000,-, waardoor er een variabele was ontstaan met slechts twee categorieën, dan zou dit direct een aantal zeer populaire analysemethoden uitsluiten.

Meetniveaus in IBM SPSS Statistics

IBM SPSS Statistics hanteert drie verschillende meetniveaus.

Nominaal (nominal)

De waarden van deze variabelen zijn codes die enkel bedoeld zijn om de verschillende categorieën te benoemen, waarbij de codering zelf arbitrair is. Bijvoorbeeld, de variabele REGIO heeft waarden 1 voor Noord, 2 voor Oost, 3 voor Zuid en 4 voor West, maar deze codes hadden net zo goed 1 voor Oost, 2 voor West, 3 voor Noord en 4 voor Zuid kunnen zijn. Een handig ezelsbruggetje hiervoor is dat de naam Nominaal is afgeleid van ‘nomen’ hetgeen ‘Naam’ betekend. 

 In IBM SPSS Statistics wordt een nominale variabele aangeduid met het icoontje bestaande uit 3 gelijkwaardige cirkels die de ongeordende categorieën representeren. 

Ordinaal (ordinal)

De waarden van deze variabelen benoemen ook verschillende categorieën, maar de codering is niet arbitrair omdat de volgorde in de waarden een rangorde in de categorieën aangeeft. Bijvoorbeeld, LEEFTIJDSKLASSE heeft de waarde 1 voor jong, 2 voor middelbare leeftijd en 3 voor oud. De volgorde in de waarden weerspiegelt de rangorde van jonger naar ouder. Er wordt geen codering gebruikt zoals 1 voor middelbaar, 2 voor oud en 3 voor jong. 

In IBM SPSS Statistics wordt een ordinale variabele aangeduid met het icoontje bestaande uit 3 oplopende stafjes, geordende categorieën. 

Nominale en ordinale variabelen worden gezamenlijk als “categoriale” of “categorische” variabelen aangeduid.

Schaal (scale)

De waarden van deze variabelen meten een kenmerk op een specifieke schaal. Bijvoorbeeld, een waarde van INKOMEN meet iemands inkomen op de inkomensschaal. Deze waarden zijn meetbaar op een vastgestelde schaal, vandaar dit dit meetniveau in IBM SPSS Statistics als schaal wordt aangeduid. 

In IBM SPSS Statistics wordt een schaal variabele aangeduid met het icoontje van een liniaal. 

Meetniveaus toekennen in IBM SPSS Statistics

U kunt het meetniveau binnen IBM SPSS Statistics op drie manieren specificeren:

  • In het venster Variable View, binnen de kolom Measure
  • Via het menu Data > Define Variable Properties, bij het dropdown menu Measurement level
  • Via Syntax, met de opdracht VARIABLE LEVEL

Syntax is met name handig als u een reeks variabelen heeft met hetzelfde meetniveau. Bijvoorbeeld vragen naar welke social media men gebruikt:

Welke van de volgende social media gebruik je?

  • Instagram
  • Facebook
  • TikTok
  • LinkedIn
  • X

Als u het nominale meetniveau wilt toekennen aan deze variabelen, zeg SOCMED1 tot en met SOCMED5, dan zou u de volgende syntax kunnen gebruiken (ervan uitgaande dat het opvolgende variabelen zijn in het databestand):

VARIABLE LEVEL SOCMED1 TO SOCMED5 (NOMINAL).

Wanneer u minder bekend bent met Syntax kunt u de VARIABLE LEVEL opdracht ook vanuit het dialoogvenster van Define Variable Properties ‘pasten’ voor één van deze variabelen en vervolgens de syntax aanpassen. Let op: U kunt syntax niet ‘pasten’ vanuit Variable View, alleen vanuit Define Variabele Properties. 

Controle van volledigheid bij het toekennen van meetniveaus

Het is mogelijk om het meetniveau van een variabele op verschillende manieren te specificeren, zoals hiervoor is aangegeven. Vooral bij omvangrijke datasets kan het uitdagend zijn om te verifiëren of alle variabelen correct van een meetniveau zijn voorzien. In dergelijke situaties is de optie Data > Set Measurement Level for Unkown zeer nuttig. 

Dit dialoogvenster toont alleen de variabelen die nog geen meetniveau hebben gekregen. Als alle variabelen al van een meetniveau zijn voorzien, ontvang je een melding dat het dialoogvenster niet geopend kan worden. Let ook even op de duidelijke uitleg over meetniveaus die in dit dialoogvenster  wordt gegeven.

Hoe IBM SPSS Statistics rekening houdt met meetniveaus binnen dialoogvensters

De meeste dialoogvensters in IBM SPSS Statistics houden geen rekening met het meetniveau van variabelen, maar recentere dialoogvensters doen dat wel. Raadpleeg https://www.dasc.nl/dialoogvensters-in-ibm-spss-statistics/ voor een uitgebreide uitleg.

De praktische implicatie is dat in dialoogvensters die geen rekening houden met meetniveaus, u verzoeken kunt indienen zonder aandacht voor het meetniveau, resulterend in output die mogelijk geen betekenis heeft. Met andere woorden, de gegenereerde output van IBM SPSS Statistics betekent niet per definitie dat deze zinvol is; dit is afhankelijk van de gebruiker.

Recentere dialoogvensters houden rekening met meetniveaus. Wanneer u zo’n dialoogvenster opent, wordt eerst de volgende vraag gesteld:

U heeft dan de mogelijkheid om het meetniveau te wijzigen via Define Variable Properties.

"Dichtoom", "discreet", en dergelijke, wat is dat dan?

In de wandelgangen worden nog veel andere termen gebruikt om meetniveaus aan te geven, wat verwarrend kan zijn. Daarom willen we verduidelijken hoe deze termen zich verhouden tot de drie eerder genoemde meetniveaus (nominaal, ordinaal, schaal) die worden onderscheiden in IBM SPSS Statistics. Hieronder geven we een overzicht.

Dichotome/binaire variabelen en dummy variabelen

Een dichotome variabele heeft twee waarden, zoals GESLACHT met waarden 0 voor Man en 1 voor Vrouw, of de variabele ISTEVREDEN met waarden 0 voor Nee en 1 voor Ja. Hoewel IBM SPSS Statistics geen apart meetniveau ‘dichotoom’ kent, verschijnt het icoontje voor dichotome variabelen () in sommige dialoogvensters, zoals die van ‘Prepare Data for Modeling’ en ‘Automatic Linear Modeling’, wat aangeeft dat de analyse ook relevant is voor dichotome variabelen. 

Dichotome variabelen worden ook wel binaire variabelen genoemd. Bepaalde analysemethoden vereisen dat een categoriale variabele wordt omgezet naar dichotome variabelen, ook wel dummy variabelen genoemd. Hierbij wordt elke categorie van de variabele omgezet naar één dichotome variabele die gelijk is aan 1 als het die categorie betreft en 0 indien dit niet het geval is. 

Interval- en ratio variabelen

In de statistiek onderscheiden we soms interval- en ratiovariabelen. Bij intervalvariabelen is de waarde 0 niet het feitelijke nulpunt (zoals bij de Celsius schaal), terwijl dit bij ratiovariabelen wel het geval is (bijvoorbeeld de lengte van een persoon). Dit heeft als gevolg dat u bij een intervalvariabele bijvoorbeeld niet kunt beweren dat 10 twee keer zoveel is als 5 (zo is 10 graden Celsius niet 2 keer zo warm als 5 graden Celsius). Bij ratio variabelen mag je dit soort uitspraken wél doen.

IBM SPSS Statistics maakt geen onderscheid tussen interval- en ratiovariabelen; beide worden beschouwd als schaalvariabelen.

Discrete en continue variabelen

Discrete variabelen zijn geheeltallig, vaak aantallen zoals het aantal personen in een huishouden, terwijl continue variabelen elke waarde kunnen aannemen, inclusief niet-geheeltallige waarden zoals de lengte van een persoon in meters. Beide worden beschouwd als schaalvariabelen.

String- en numerieke variabelen

String variabelen slaan tekst op, bijvoorbeeld open antwoorden in enquêtes. Deze worden ook wel alfanumeriek genoemd en zijn nominaal van meetniveau. Numerieke variabelen slaan getallen op, maar niet alle zijn schaalvariabelen; sommige kunnen nominaal zijn, zoals postcodes. IBM SPSS Statistics classificeert ze als schaalvariabelen tenzij anders aangegeven. Na import, bijvoorbeeld vanuit Microsoft Excel, kunnen variabelen onbedoeld als string worden getypeerd; in dat geval kun je het type wijzigen met behulp van Syntax.

U kunt dit snel zien want de waarden van een string variabele worden links uitgelijnd in de cellen in het Datavenster, terwijl de waarden van een numerieke variabele rechts worden uitgelijnd in de cellen. Mochten de waarden string zijn terwijl u ze als numeriek ziet, dan is het meest efficiënt om het type van de variabele van string te veranderen in numeriek. Stel bijvoorbeeld dat de waarden van LEEFTIJD string zijn, bijvoorbeeld “18”, “19”, etc. dan verandert de volgende syntax het type:

ALTER TYPE LEEFTIJD (F8.0).

 Als je wilt weten welke variabeletypen er zijn IBM SPSS Statistics kun je de kolom Type in Variabele View bekijken:

Naast string en numerieke variabele zijn er ook nog andere variabelentypen, zoals datumvariabelen die u in diverse formaten kunt laten weergeven (bijvoorbeeld 01-Jan-2024 of 01.01.2024). Dit geldt ook voor variabelen die een tijd aangeven.

Het type Custom currency komt van pas als u bedragen in uw dataset heeft en die in het Datavenster wilt tonen met een Euro teken.

Vragen...en antwoorden!

We begonnen dit artikel met een aantal vragen, met de belofte dat het concept “meetniveau” de sleutel zou zijn tot het antwoord.

We staan kort stil bij enkele van deze vragen:

  • Ik wil een bepaalde variabele hercoderen via Visual Binning, maar die variabele zie ik niet in het dialoogvenster Visual Binning, waarom niet?

Antwoord: Visual Binning laat alleen ordinale- en schaalvariabelen zien en de variabele in kwestie is blijkbaar nominaal; verander het meetniveau van de variabele dus in ordinaal of schaal.

  • Welke statistische toets moet ik gebruiken als ik het verband tussen twee variabelen wil onderzoeken?

Antwoord: Kies de toets die geschikt is voor het meetniveau van de variabelen; bijvoorbeeld, als beide variabelen categoriaal zijn gebruik dan een kruistabel met daarbij een Chikwadraat toets.

  • Wat is het verschil tussen Binary Logistic Regression, Multinomial Logistic Regression, Ordinal Regression en Linear Regression?

Antwoord: Al deze analysemethoden “voorspellen” of “verklaren” een bepaalde variabele, die de afhankelijke variabele wordt genoemd. Als de afhankelijke variabele dichotoom is gebruikt u Binary Logistic Regression, als de afhankelijke meer dan 2 categorieën heeft en nominaal is komt u uit bij Multinomial Logistic Regression, als de afhankelijke ordinaal is, inderdaad…, Ordinal Regression en als de afhankelijke scale is Linear Regression.

Het meetniveau van de voorspellende/verklarende variabelen, ofwel onafhankelijke variabelen, moet in al deze analysemethoden schaal zijn. Echter, door een categoriale variabele om te zetten in dummy variabelen (zie boven) kunnen categoriale variabelen tóch worden meegenomen als onafhankelijke variabelen.

  • Wat is het verschil tussen een factor en een covariaat in Variantie Analyse?

Antwoord: een factor is een categoriale variabele, een covariaat is een schaal variabele. De termen “factor”, “covariaat” worden van oudsher gehanteerd in deze tak van statistiek, Variantie Analyse.

Win een DASC Dopper!

Enkele vragen zijn nog niet beantwoord; weet u het antwoord op de volgende vragen, laat het ons dan weten op info@data-analyse-academie.nl en win een fraaie DASC dopper! (over de uitslag kan helaas niet worden gecorrespondeerd).

  • Ik wil een staafdiagram maken van een bepaalde variabele in de Chart Builder, maar ik kan alleen een histogram maken van de variabele, hoe kan dat?
  • Welke van de volgende correlaties hebben betekenis:
  • Wat betekent “Classification” en “Regression” in de analysemethode Classification and Regression Trees?
  • Extra vraag: Waar of niet waar: In een dialoogvenster kun je de variabelen in de variabelenlijst (links in het dialoogvenster) sorteren op meetniveau.
  • Extra vraag: Als je bij Frequencies kiest voor een staafdiagram, kun je de staafjes in de grafiek sorteren op aflopende aantallen (de optie “descending counts”). Is dit zinvol voor nominale variabelen, ordinale variabelen, of voor zowel nominale als ordinale variabelen?
  • Extra vraag: Stel je hebt een variabele ISTEVREDEN met antwoorden 0 – niet tevreden en 1 – wel tevreden; je vraagt nu het gemiddelde op van ISTEVREDEN en dat geeft, stel, 0.7. Wat zegt dat?

Conclusie

Het begrip meetniveau is de Heilige Graal als het gaat om verantwoord analyseren van data. Het is een zeer intuïtief begrip, waarvoor geen enkele kansrekening, wiskunde of wat dan ook noodzakelijk is. Desondanks valt op dat veel opleidingen in statistiek, data-analyse en data science juist starten met complexere vakken, waarbij meetniveaus soms over het hoofd worden gezien.

Wij zijn van mening dat minimale wiskundige kennis volstaat om een competente Data Analist of Data Scientist te worden. Fundamentele concepten, zoals meetniveau, zijn essentieel om op een verantwoorde wijze data te analyseren. De Data Analyse Academie en DASC bieden ondersteuning aan gebruikers van IBM SPSS Statistics en IBM SPSS Modeler door middel van toegankelijke, efficiënte, praktijkgerichte cursussen met het uitgangspunt van “learning by doing”.

Ons curriculum is uniek doordat we focussen op basisprincipes om data op verantwoorde wijze te analyseren, waarbij we een beroep doen op intuïtie en geen voorkennis op het gebied van wiskunde vereisen. We omarmen ook kunstmatige intelligentie, zoals bijvoorbeeld ChatGPT, om het beste uit moderne technologieën te halen. Ons motto luidt: Efficiënt Leren, Verantwoord Analyseren!

Wilt u binnen twee dagen op eenzelfde niveau komen als een jaar studie op HBO/Universiteit? Informeer dan naar onze cursussen Basis Statistiek en Statistisch Toetsen, of bezoek onze site op cursussen Statistiek bij de Data Analyse Academie. Wilt u uw arsenaal aan analysemethoden uitbreiden, dan raden wij de cursussen Segmenteren en Voorspellen aan, (twee ééndaagse cursussen). Als tool gebruiken we in deze cursussen IBM SPSS Statistics; IBM SPSS Statistics heeft een zeer gebruikersvriendelijke interface zodat u geen commando’s hoeft te typen en zich kan focussen op hoe u de uitvoer interpreteert.

Wilt u de statistische basis leggen om een Data Scientist te worden, bekijk dan eens het curriculum dat we hebben ontwikkeld voor IBM SPSS Modeler, Data Science met IBM SPSS Modeler, waarin je vanaf nul (beter gezegd, vanaf het begrip meetniveau) binnen 6 dagen leert om Machine Learning modellen in te zetten. En bovendien vertrouwd raakt met alle data science terminologie.

Niet alleen als het gaat om statistiek, maar ook als het gaat om Syntax, efficiënte data preparatie (à la ALTER TYPE), automatiseren van taken, en dergelijke, ondersteunen wij IBM SPSS Statistics gebruikers, op alle niveaus. En datzelfde geldt uiteraard voor IBM SPSS Modeler.

Ook bieden wij al onze cursussen op maat aan; te denken valt aan een selectie van onderwerpen, gebruik van een tool zoals R of Python, werken met eigen data, en meer. En dat in-company, 1-op-1, Train-de-Trainer, remote, of self paced.

Als u de data analyse werkzaamheden uit wilt besteden, of u zich in brede zin wilt oriënteren op analytische workflows, neem dan contact met ons op; wij komen graag met u in gesprek.

Happy learning en stay tuned!

 

Jos den Ronden – Data Analyse Academie

&

Rianne Severin-Hotting – DASC

Decision-Optimization

Behapbaar beginnen met IBM SPSS Custom Tables?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.