DASC

Segmenteer uw klanten met IBM SPSS Statistics

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Segmenteer uw klanten met IBM SPSS Statistics

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

In dit artikel presenteren we twee methoden om klanten te segmenteren. De eerste methode plaatst klanten in een “piramide” (gebaseerd op The Customer Marketing Method, Jay Curry en Adam Curry, 2000). Hieronder zie je een voorbeeld van de “klantpiramide” (geïnspireerd door Curry).

Uit de piramide blijkt dat 20% van de klanten voor 80% van de omzet verantwoordelijk zijn.

Heeft men eenmaal de klanten gesegmenteerd,  dan zijn er verschillende strategieën om bijvoorbeeld klanten te bewegen naar een hoger segment of om te achterhalen waarom klanten inactief worden. 

Het maken van deze klantpiramide is eenvoudig, terwijl de tweede segmentatiemethode wat voorkennis van statistiek vereist. Het voordeel van de tweede methode is dat deze algemener is en geschikt voor verschillende soorten segmentatie.

Methode 1: Segmenteren aan de hand van de klantpiramide

De vraag is hoe je “top” klanten, “grote” klanten en dergelijke zou willen definiëren. Zo zou je klanten kunnen opdelen in 5 segmenten op basis van omzet. Bijvoorbeeld, met 100 klanten zou je de klant met de hoogste omzet (1%) tot de “top” rekenen, terwijl de 50 klanten (50%) met de laagste omzet tot het “inactieve” segment behoren. De klant in het topsegment krijgt dan de score 5, de klanten in het inactieve segment krijgen de score 1.

Een verdere verfijning van dit idee omvat niet alleen de omzet (of “Monetary value”) als basis voor segmentatie, maar ook de frequentie van aankopen (“Frequency”) en de recentelijkheid van de aankopen (“Recency”):

  • Voor Frequency: de top 1% van klanten die het vaakst hebben gekocht, worden als elite beschouwd (score 5), terwijl de onderste 50% die minder vaak hebben gekocht, worden geclassificeerd als inactief (score 1).
  • Voor Recency geldt een soortgelijke aanpak: de top 1% van klanten die het meest recent hebben gekocht, worden als actief beschouwd (score 5), terwijl de onderste 50% die het langst geleden hebben gekocht, worden gecategoriseerd als inactief (score 1).

Hierdoor krijgt elke klant 3 scores, variërend van 1 tot 5, die vervolgens worden opgeteld tot één totaalscore per klant. De hoogste score is dan 15, terwijl de laagste score 3 bedraagt. Op basis hiervan kunnen de top 1% klanten met de hoogste totaalscores worden aangemerkt als het top segment.

In de praktijk zijn er verschillende varianten van deze aanpak te vinden:

  • In plaats van eenvoudige optelling van scores op de RFM-variabelen, zou je prioriteiten kunnen stellen in de RFM-variabelen. Bijvoorbeeld, als de Monetaire Waarde het belangrijkst wordt geacht, gevolgd door Recency en vervolgens Frequency, zou je een klantscore kunnen berekenen met de formule: 100 * M + 10 * R + F.
  • Ook het aantal segmenten per variabele kan variëren. Meer of minder segmenten kunnen worden gecreëerd, waarbij meer segmenten zorgen voor een fijnere granulariteit in de piramide.

De algemene term voor het indelen van gegevens in gelijke delen is “n-tielen”, waarbij n in dit voorbeeld gelijk is aan 5 (bij kwartielen krijg je bijvoorbeeld 25% van de gevallen in elk segment; bij percentielen 1%).

Voor dit artikel volgen we de laatste methode: 5 segmenten van elk 20% per variabele, gevolgd door 5 segmenten van 20% op basis van de klantscore. Maar er zijn talloze andere benaderingen mogelijk.

Het maken van de klantpiramide in IBM SPSS Statistics

Het volgende figuur geeft een voorbeeld van een klantenbestand met RFM variabelen.

De variabele Date geeft de datum van de bestelling weer, Amount het bedrag van de bestelling.

Merk op dat elke rij een bestelling van een klant vertegenwoordigt, niet een klant zelf. Zo heeft de eerste klant 5 bestellingen geplaatst en de tweede klant 4 bestellingen.

Vanuit dit transactiebestand moeten we komen tot een databestand waar klanten de eenheden (cases) vormen, met de variabelen:

  • Recency: de meest recente transactie datum, dus de maximum waarde van Date per klant
  • Frequency: het aantal transacties, dus het aantal rijen in het transactiebestand dat een klant heeft.,
  • MonetaryValue: de som van alle bedragen, dus de som van Amount, per klant

Dit is een typisch voorbeeld van Data > Aggregate, met als “break variabele” ID (transacties met eenzelfde ID worden samengenomen tot één nieuwe case).

Het dialoogvenster van Aggregate wordt hieronder links getoond, net als de nieuwe dataset die gemaakt is.

Met de Aggregate functie hebben we nu de gewenste variabelen verkregen, op het juiste analyseniveau (klanten in plaats van transacties). Voor Recency wordt het maximum opgevraagd, waarmee we voor elke klant de meest recente besteldatum krijgen. Voor MonetaryValue worden alle bedragen voor een klant opgeteld, en voor Frequency wordt per klant het aantal rijen in het transactiedatabestand geteld.

Resteren nog enkele transformaties:

  • Gebruik Transform > Rank Cases om, per RFM variabele, 5 segmenten te maken, elk van 20%. Dit kan door in het dialoogvenster Rank Cases bij Rank Types te opteren voor NTiles, met waarde 5. Je krijgt dan 3 variabelen, elk lopend van 1 (20% laagste scores) tot en met 5 (20% hoogste scores).
  • Tel de 3 afzonderlijke scores optellen tot één nieuwe score, zeg Klantscore. Gebruik hiervoor Transform > Compute, met de functie Sum.
  • Tot slot kun je weer Transform > Rank Cases toepassen op de Klantscore, met 5 n-tielen. Degenen mede t score 5 vormen dus de 20% top klanten. Degenen met de score 1, ook 20% van het bestand, kun je beschouwen als inactief.

Methode 2: Segmenteren met een clustermethode

De bovengenoemde methode kan op twee punten worden verfijnd: het toevoegen van meer variabelen die iets zeggen over Recency, Frequency en Monetary Value en het gebruik van een data-driven aanpak om natuurlijke groepen in de data te vinden.

  • Er zijn meer variabelen die iets zeggen over Recency, Frequency, en Monetary Value. Voor Monetary Value zou je voor elke klant niet alleen de som van de transactiebedragen kunnen nemen, maar ook het maximale transactiebedrag, of bijhouden of er veel verschil in de transactiebedragen zit. Evenzo kunnen er voor Frequency en Recency extra variabelen worden gemaakt.
  • Het opdelen van data in gelijke groepen van, zeg, 20% is niet altijd een “natuurlijke” opdeling. Als extreem voorbeeld, stel dat we 10 klanten hebben met de volgende bedragen: 100, 150, 200, 475, 525, 825, 875, 900, 950, 2000, en we groepen maken van 20%.

De opdeling in groepen van 20% zorgt er voor dat klanten met substantieel andere bedragen in dezelfde groep komen, omdat er nu eenmaal 5 groepen van 20% moeten worden gevormd. 

Het alternatief is een data driven aanpak. Er zijn diverse statistische methoden die tot doel hebben om natuurlijke of “homogene” groepen in de data te vinden. Deze statistische methoden worden cluster-algoritmes genoemd. In de wereld van Data Science vallen ze onder de Unsupervised Learning technieken, dit in tegenstelling tot technieken die een bepaald kenmerk (al/dan niet opzeggen van een abonnement, de prijs van een huis) proberen te voorspellen op basis van andere kenmerken, de zogenoemde Supervised Learning technieken.

Cluster-algoritmes vinden dus cases die op elkaar lijken. Hierbij kunnen we als bijvangst van de clustering ook uitbijters in de data ontdekken, een uitbijter zal namelijk een cluster op zichzelf vormen, zoals de klant met de waarde 2,000 in dit voorbeeld. Vandaar dat cluster-algoritmen ook de basis vormen van zogenoemde Anomaliedetectie-technieken, bijvoorbeeld bij verzekeringen om frauduleuze of verdachte claims te identificeren.

Cluster analyse met IBM SPSS Statistics

Om natuurlijke groepen te creëren, gebruiken we Aggregate om variabelen zoals maximale bedrag, som van de bedragen, datum van de eerste transactie en datum van de laatste transactie te maken.

  • Gebruik Aggregate, met als break variabele ID, om variabelen zoals maximale bedrag, som van de bedragen, datum van de eerste transactie, datum van de tweede transactie, en dergelijke te maken, waarbij de data van transactieniveau naar klantniveau worden getild.
  • Als klanten de eenheden (cases) vormen in het databestand kunnen verdere variabelen worden berekend, bijvoorbeeld het verschil tussen de datum van de laatste bestelling en datum van de eerste bestelling. Het rekenen met datumvariabelen is eenvoudig door gebruik te maken van Transform > Date and Time Wizard.

Hieronder zien we een deel van de verkregen data:

Naast het totale bedrag hebben we ook het bedrag uitgegeven per product. Ook zie je het verschil in dagen tussen de datum van eerste- en laatste bestelling. De laatste variabele is het aantal bestellingen wat de klant heeft gedaan.

Op basis van deze verrijkte dataset kunnen we met een cluster analyse natuurlijke groepen creëren: klanten die op elkaar lijken moeten in eenzelfde cluster komen, klanten die niet op elkaar zijn moeten in andere verschillende clusters komen.

Om te bepalen of twee klanten op elkaar lijken kunnen we per variabele het verschil tussen de scores van deze twee klanten bepalen, en die verschillen optellen. Bijvoorbeeld het verschil tussen klant 1 en klant 2 op de variabele Amount is 485 – 350 = 135; op AmountProduct1 is hun verschil -24, en het verschil tussen deze twee klanten op NOrders is 1.

Met dit voorbeeld zien we al direct een aantal problemen die getackeld moeten worden:

  • We kunnen niet simpelweg het verschil nemen, want negatieve verschillen en positieve verschillen kunnen elkaar opheffen.
  • De verschillen, hoe dan ook gemeten, op de variabele Amount zullen veel groter zijn dan op een variabele zoals NOrders. Deze variabelen zijn anders geschaald, en hoe kun je überhaupt een verschil in geldbedragen optellen bij een verschil in aantallen?
  • We hebben nogal veel nieuwe variabelen gemaakt die nauw met elkaar zouden kunnen samenhangen, denk bijvoorbeeld aan Amount en AmountProduct1. Als twee variabelen nauw samenhangen berekenen we feitelijk twee keer hetzelfde verschil.

Het tweede punt en derde punt kunnen we tackelen als we vóór de cluster analyse een zogenoemde Principale Componenten Analyse (PCA) uitvoeren, mogelijk in IBM SPSS Statistics met Analyze > Dimension Reduction > Factor.

Met PCA reduceren we de variabelen in ons databestand tot een klein aantal kernvariabelen (“principale componenten”); deze kernvariabelen bevatten nagenoeg dezelfde informatie als de variabelen die we in ons databestand hebben. Bovendien zijn deze kernvariabelen op dezelfde schaal en hangen ze niet met elkaar samen (kan dat??? Jazeker, PCA is bijna magie!). Kortom: we kunnen deze kernvariabelen als input gebruiken voor de cluster analyse!

Voor de cluster analyse gebruiken we Analyze > Classification > K Means Cluster. De “K” refereert hierbij aan het aantal clusters (groepen) dat we willen hebben. K Means Cluster gebruikt een geschikte maat om de afstanden tussen cases (klanten hier) te berekenen (zodat verschillen elkaar niet opheffen).

Gesteld dat we weer 5 segmenten willen maken, kiezen we bij Number of Clusters voor 5.

Bij het submenu Save geven we aan dat we een variabele willen bewaren die het cluster aangeeft waartoe een klant behoort.

De nieuwe variabele, die aangeeft tot welk cluster een klant behoort, kunnen we weer gebruiken in allerhande vervolganalyses. Zo kunnen we de clusters profileren aan de hand van de variabelen in ons databestand. De volgende tabel laat zien hoe de clusters scoren op de oorspronkelijke RFM variabelen (totaal bedrag, aantal bestellingen, en aantal dagen sinds de laatste bestelling.

Cluster 5 is het top segment (hoogste gemiddelde op elk van de RFM variabelen). Cluster 2 scoort gemiddeld genomen het laagst.

We kunnen de clusters ook profileren aan de hand van demografische kenmerken, zoals geslacht, leeftijd, regio, en dergelijke, gesteld uiteraard dat deze gegevens bekend zijn. Vervolgens kan de marketingstrategie daar op worden afgestemd.

Conclusie

In dit artikel passeerden twee benaderingen om klanten te segmenteren, de ene uitgaande van de klantpiramide en n-tielen, de andere door het vinden van homogene klantgroepen in de data middels Cluster analyse. De eerste aanpak vergt geen voorkennis, terwijl voor het uitvoeren van een Cluster analyse elementaire kennis van statistiek volstaat.

Er zijn ook nog varianten op deze benaderingen denkbaar. Welke methode het beste is, is niet op voorhand te zeggen; de segmentatie die het meest voor de business oplevert is uiteindelijk de beste.

Zoals in het algemeen, geldt ook hier dat data preparatie 80% van alle werk is. Onze tip: Maak gebruik van IBM SPSS Statistics Syntax voor significante tijdwinst!

Wilt u meer weten over data manipulatie, statistiek, klantsegmentatie, werken met Syntax, Custom Tables, of welk SPSS gerelateerd onderwerp dan ook, neem dan vrijblijvend contact op met ons. DASC en de Data Analyse Academie ondersteunen SPSS klanten middels webinars, workshops, cursussen (publiek of in-company cursussen op maat). DASC is meer in het algemeen ook uw partner als het gaat om het ontwerpen, begeleiden, en evalueren van analytische workflows. 

Tot slot de vermelding dat IBM SPSS Statistics een aparte module Direct Marketing heeft; het volgende figuur laat de functionaliteit zien van deze module:

Wilt u meer informatie over deze module, neemt u dan aub contact met ons op.

Maak kans op een mooie DASC Dopper!

Laten we nog eens kijken naar ons oorspronkelijke bestand. 

De lezersvraag is: hoe kunnen we met IBM SPSS Statistics de variabele Amount “spreiden” in de variabelen AmountProduct1, AmountProduct2, etc. (het figuur rechts), waarbij we ook van transactieniveau naar klantniveau gaan.

Hoe komen we van het databestand boven naar het databestand onder?

Stuur uw oplossing in en maak kans op een unieke DASC dopper! In de volgende blog de ontknoping, dus… stay tuned!

 

Happy learning!

Jos den Ronden – Data Analyse Academie

Rianne Severin-Hotting – DASC

Decision-Optimization

Behapbaar beginnen met IBM SPSS Statistics?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

Analyseer je data op niveau!

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Analyseer je data op niveau

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

Bent u ook ooit verdwaald in de wereld van IBM SPSS Statistics, met vragen zoals;

  • Waarom kan ik een specifieke variabele niet vinden in het Visual Binning dialoogvenster?
  • Hoe kan het dat ik voor een variabele alleen een histogram kan maken en geen staafdiagram?
  • Welke statistische toets moet ik gebruiken voor het onderzoeken van verbanden tussen variabelen?
  • Wat is het onderscheid tussen Binary Logistic Regression, Multinominal Logistic Regression, Ordinal Regression en Linear Regression?
  • Wat is het verschil tussen een factor en een covariaat in Variantie Analyse? 
  • En waarom is het meetniveau van een variabele eigenlijk zo belangrijk?

Om antwoord te kunnen geven op deze vragen is enkel het “type” van de variabele relevant. In de wereld van de statistiek wordt dit het meetniveau (measurement level) genoemd. 

In dit artikel gaan we dieper in op deze meetniveaus. We zetten de verschillende meetniveaus overzichtelijk op een rijtje en laten zien hoe je een meetniveau kan toekennen aan een variabele in je dataset. Daarnaast staan we stil bij de, soms verwarrende, veel gebruikte termen rondom meetniveaus en geven tenslotte antwoord op enkele van de bovenstaande vragen in het kader van de besproken concepten. 

Meetniveaus in je SPSS dataset

Als voorbeeld gebruiken we in dit artikel een dataset met gegevens die verzameld zijn voor een enquête naar politieke voorkeur. Elke rij bevat de gegevens van één respondent, in IBM SPSS Statistics worden de rijen ook wel cases genoemd. De kolommen, ofwel variabelen, zijn de kenmerken waarnaar gevraagd is. 

Let op de pictogrammen die voor de variabelnamen staan. Deze geven het meetniveau van de variabele aan. Belangrijk om op te merken; oudere versies van IBM SPSS Statistics tonen deze pictogrammen mogelijk nog niet. 

De variabelen waarvan de waarden categorieën voorstellen zijn in deze dataset gecodeerd (regio, geslacht, leeftijdsklasse en politieke voorkeur). Deze  manier van coderen is door de jaren heen in de ontwikkeling van IBM SPSS Statistics gegroeid, door codes in te voeren in plaats van de tekst van categorieën kon men namelijk veel tijd besparen bij het invoeren van data. Bijvoorbeeld, code 1 bij REGIO kan betekenen dat iemand uit het noorden komt, GESLACHT 1 kan een vrouw representeren, LEEFTIJDSKLASSE 1 een jongere en de waarde 1 bij POLITIEKE_VOORKEUR iemand met een voorkeur voor een linkse partij.

TIP: In plaats van de codes kunt u ook de labels van de waarden in de datacellen laten zien; met de knop wissel je van codes naar value labels. 

De waarden van INKOMEN zijn geen codes voor categorieën, maar geven het feitelijke inkomen weer. Zo heeft de eerste respondent een inkomen van €34.000,-.

Het belang van meetniveaus

In het onderzoeksrapport voor deze enquête zult u waarschijnlijk niet vermelden dat de gemiddelde regio 2,9 is. Dit zal immers niemand iets zeggen; daarentegen zou het wel relevant zijn om te vermelden dat het gemiddelde inkomen €35.765,- bedraagt. 

Het idee dat het “type” van de variabele bepaalt welke statistiek zinvol is, is zeer intuïtief: voor een variabele als REGIO gebruik je andere statistieken dan voor een variabele als INKOMEN. Als we REGIO niet hadden gecodeerd, maar de waarden als ‘Noord’, ‘Oost’, enzovoort hadden gelaten, zou het berekenen van een gemiddelde überhaupt niet mogelijk zijn geweest. Bovendien hebben we om het verband tussen GESLACHT en POLITIEKE_VOORKEUR te onderzoeken andere statistische maten nodig dan om het verband tussen GESLACHT en INKOMEN te onderzoeken.

 Het begrip meetniveau verduidelijkt deze intuïtieve notie van “type” variabele en bepaalt daarmee welke analyses relevant zijn en vooral welke niet. 

Dit impliceert ook dat het meetniveau van een variabele zijn invloed heeft op het verzamelen van gegevens. Als we bijvoorbeeld INKOMEN niet als meetwaarden zouden hebben verzameld, maar eenvoudigweg genoteerd hadden of iemand minder of meer verdient dan €25.000,-, waardoor er een variabele was ontstaan met slechts twee categorieën, dan zou dit direct een aantal zeer populaire analysemethoden uitsluiten.

Meetniveaus in IBM SPSS Statistics

IBM SPSS Statistics hanteert drie verschillende meetniveaus.

Nominaal (nominal)

De waarden van deze variabelen zijn codes die enkel bedoeld zijn om de verschillende categorieën te benoemen, waarbij de codering zelf arbitrair is. Bijvoorbeeld, de variabele REGIO heeft waarden 1 voor Noord, 2 voor Oost, 3 voor Zuid en 4 voor West, maar deze codes hadden net zo goed 1 voor Oost, 2 voor West, 3 voor Noord en 4 voor Zuid kunnen zijn. Een handig ezelsbruggetje hiervoor is dat de naam Nominaal is afgeleid van ‘nomen’ hetgeen ‘Naam’ betekend. 

 In IBM SPSS Statistics wordt een nominale variabele aangeduid met het icoontje bestaande uit 3 gelijkwaardige cirkels die de ongeordende categorieën representeren. 

Ordinaal (ordinal)

De waarden van deze variabelen benoemen ook verschillende categorieën, maar de codering is niet arbitrair omdat de volgorde in de waarden een rangorde in de categorieën aangeeft. Bijvoorbeeld, LEEFTIJDSKLASSE heeft de waarde 1 voor jong, 2 voor middelbare leeftijd en 3 voor oud. De volgorde in de waarden weerspiegelt de rangorde van jonger naar ouder. Er wordt geen codering gebruikt zoals 1 voor middelbaar, 2 voor oud en 3 voor jong. 

In IBM SPSS Statistics wordt een ordinale variabele aangeduid met het icoontje bestaande uit 3 oplopende stafjes, geordende categorieën. 

Nominale en ordinale variabelen worden gezamenlijk als “categoriale” of “categorische” variabelen aangeduid.

Schaal (scale)

De waarden van deze variabelen meten een kenmerk op een specifieke schaal. Bijvoorbeeld, een waarde van INKOMEN meet iemands inkomen op de inkomensschaal. Deze waarden zijn meetbaar op een vastgestelde schaal, vandaar dit dit meetniveau in IBM SPSS Statistics als schaal wordt aangeduid. 

In IBM SPSS Statistics wordt een schaal variabele aangeduid met het icoontje van een liniaal. 

Meetniveaus toekennen in IBM SPSS Statistics

U kunt het meetniveau binnen IBM SPSS Statistics op drie manieren specificeren:

  • In het venster Variable View, binnen de kolom Measure
  • Via het menu Data > Define Variable Properties, bij het dropdown menu Measurement level
  • Via Syntax, met de opdracht VARIABLE LEVEL

Syntax is met name handig als u een reeks variabelen heeft met hetzelfde meetniveau. Bijvoorbeeld vragen naar welke social media men gebruikt:

Welke van de volgende social media gebruik je?

  • Instagram
  • Facebook
  • TikTok
  • LinkedIn
  • X

Als u het nominale meetniveau wilt toekennen aan deze variabelen, zeg SOCMED1 tot en met SOCMED5, dan zou u de volgende syntax kunnen gebruiken (ervan uitgaande dat het opvolgende variabelen zijn in het databestand):

VARIABLE LEVEL SOCMED1 TO SOCMED5 (NOMINAL).

Wanneer u minder bekend bent met Syntax kunt u de VARIABLE LEVEL opdracht ook vanuit het dialoogvenster van Define Variable Properties ‘pasten’ voor één van deze variabelen en vervolgens de syntax aanpassen. Let op: U kunt syntax niet ‘pasten’ vanuit Variable View, alleen vanuit Define Variabele Properties. 

Controle van volledigheid bij het toekennen van meetniveaus

Het is mogelijk om het meetniveau van een variabele op verschillende manieren te specificeren, zoals hiervoor is aangegeven. Vooral bij omvangrijke datasets kan het uitdagend zijn om te verifiëren of alle variabelen correct van een meetniveau zijn voorzien. In dergelijke situaties is de optie Data > Set Measurement Level for Unkown zeer nuttig. 

Dit dialoogvenster toont alleen de variabelen die nog geen meetniveau hebben gekregen. Als alle variabelen al van een meetniveau zijn voorzien, ontvang je een melding dat het dialoogvenster niet geopend kan worden. Let ook even op de duidelijke uitleg over meetniveaus die in dit dialoogvenster  wordt gegeven.

Hoe IBM SPSS Statistics rekening houdt met meetniveaus binnen dialoogvensters

De meeste dialoogvensters in IBM SPSS Statistics houden geen rekening met het meetniveau van variabelen, maar recentere dialoogvensters doen dat wel. Raadpleeg https://www.dasc.nl/dialoogvensters-in-ibm-spss-statistics/ voor een uitgebreide uitleg.

De praktische implicatie is dat in dialoogvensters die geen rekening houden met meetniveaus, u verzoeken kunt indienen zonder aandacht voor het meetniveau, resulterend in output die mogelijk geen betekenis heeft. Met andere woorden, de gegenereerde output van IBM SPSS Statistics betekent niet per definitie dat deze zinvol is; dit is afhankelijk van de gebruiker.

Recentere dialoogvensters houden rekening met meetniveaus. Wanneer u zo’n dialoogvenster opent, wordt eerst de volgende vraag gesteld:

U heeft dan de mogelijkheid om het meetniveau te wijzigen via Define Variable Properties.

"Dichtoom", "discreet", en dergelijke, wat is dat dan?

In de wandelgangen worden nog veel andere termen gebruikt om meetniveaus aan te geven, wat verwarrend kan zijn. Daarom willen we verduidelijken hoe deze termen zich verhouden tot de drie eerder genoemde meetniveaus (nominaal, ordinaal, schaal) die worden onderscheiden in IBM SPSS Statistics. Hieronder geven we een overzicht.

Dichotome/binaire variabelen en dummy variabelen

Een dichotome variabele heeft twee waarden, zoals GESLACHT met waarden 0 voor Man en 1 voor Vrouw, of de variabele ISTEVREDEN met waarden 0 voor Nee en 1 voor Ja. Hoewel IBM SPSS Statistics geen apart meetniveau ‘dichotoom’ kent, verschijnt het icoontje voor dichotome variabelen () in sommige dialoogvensters, zoals die van ‘Prepare Data for Modeling’ en ‘Automatic Linear Modeling’, wat aangeeft dat de analyse ook relevant is voor dichotome variabelen. 

Dichotome variabelen worden ook wel binaire variabelen genoemd. Bepaalde analysemethoden vereisen dat een categoriale variabele wordt omgezet naar dichotome variabelen, ook wel dummy variabelen genoemd. Hierbij wordt elke categorie van de variabele omgezet naar één dichotome variabele die gelijk is aan 1 als het die categorie betreft en 0 indien dit niet het geval is. 

Interval- en ratio variabelen

In de statistiek onderscheiden we soms interval- en ratiovariabelen. Bij intervalvariabelen is de waarde 0 niet het feitelijke nulpunt (zoals bij de Celsius schaal), terwijl dit bij ratiovariabelen wel het geval is (bijvoorbeeld de lengte van een persoon). Dit heeft als gevolg dat u bij een intervalvariabele bijvoorbeeld niet kunt beweren dat 10 twee keer zoveel is als 5 (zo is 10 graden Celsius niet 2 keer zo warm als 5 graden Celsius). Bij ratio variabelen mag je dit soort uitspraken wél doen.

IBM SPSS Statistics maakt geen onderscheid tussen interval- en ratiovariabelen; beide worden beschouwd als schaalvariabelen.

Discrete en continue variabelen

Discrete variabelen zijn geheeltallig, vaak aantallen zoals het aantal personen in een huishouden, terwijl continue variabelen elke waarde kunnen aannemen, inclusief niet-geheeltallige waarden zoals de lengte van een persoon in meters. Beide worden beschouwd als schaalvariabelen.

String- en numerieke variabelen

String variabelen slaan tekst op, bijvoorbeeld open antwoorden in enquêtes. Deze worden ook wel alfanumeriek genoemd en zijn nominaal van meetniveau. Numerieke variabelen slaan getallen op, maar niet alle zijn schaalvariabelen; sommige kunnen nominaal zijn, zoals postcodes. IBM SPSS Statistics classificeert ze als schaalvariabelen tenzij anders aangegeven. Na import, bijvoorbeeld vanuit Microsoft Excel, kunnen variabelen onbedoeld als string worden getypeerd; in dat geval kun je het type wijzigen met behulp van Syntax.

U kunt dit snel zien want de waarden van een string variabele worden links uitgelijnd in de cellen in het Datavenster, terwijl de waarden van een numerieke variabele rechts worden uitgelijnd in de cellen. Mochten de waarden string zijn terwijl u ze als numeriek ziet, dan is het meest efficiënt om het type van de variabele van string te veranderen in numeriek. Stel bijvoorbeeld dat de waarden van LEEFTIJD string zijn, bijvoorbeeld “18”, “19”, etc. dan verandert de volgende syntax het type:

ALTER TYPE LEEFTIJD (F8.0).

 Als je wilt weten welke variabeletypen er zijn IBM SPSS Statistics kun je de kolom Type in Variabele View bekijken:

Naast string en numerieke variabele zijn er ook nog andere variabelentypen, zoals datumvariabelen die u in diverse formaten kunt laten weergeven (bijvoorbeeld 01-Jan-2024 of 01.01.2024). Dit geldt ook voor variabelen die een tijd aangeven.

Het type Custom currency komt van pas als u bedragen in uw dataset heeft en die in het Datavenster wilt tonen met een Euro teken.

Vragen...en antwoorden!

We begonnen dit artikel met een aantal vragen, met de belofte dat het concept “meetniveau” de sleutel zou zijn tot het antwoord.

We staan kort stil bij enkele van deze vragen:

  • Ik wil een bepaalde variabele hercoderen via Visual Binning, maar die variabele zie ik niet in het dialoogvenster Visual Binning, waarom niet?

Antwoord: Visual Binning laat alleen ordinale- en schaalvariabelen zien en de variabele in kwestie is blijkbaar nominaal; verander het meetniveau van de variabele dus in ordinaal of schaal.

  • Welke statistische toets moet ik gebruiken als ik het verband tussen twee variabelen wil onderzoeken?

Antwoord: Kies de toets die geschikt is voor het meetniveau van de variabelen; bijvoorbeeld, als beide variabelen categoriaal zijn gebruik dan een kruistabel met daarbij een Chikwadraat toets.

  • Wat is het verschil tussen Binary Logistic Regression, Multinomial Logistic Regression, Ordinal Regression en Linear Regression?

Antwoord: Al deze analysemethoden “voorspellen” of “verklaren” een bepaalde variabele, die de afhankelijke variabele wordt genoemd. Als de afhankelijke variabele dichotoom is gebruikt u Binary Logistic Regression, als de afhankelijke meer dan 2 categorieën heeft en nominaal is komt u uit bij Multinomial Logistic Regression, als de afhankelijke ordinaal is, inderdaad…, Ordinal Regression en als de afhankelijke scale is Linear Regression.

Het meetniveau van de voorspellende/verklarende variabelen, ofwel onafhankelijke variabelen, moet in al deze analysemethoden schaal zijn. Echter, door een categoriale variabele om te zetten in dummy variabelen (zie boven) kunnen categoriale variabelen tóch worden meegenomen als onafhankelijke variabelen.

  • Wat is het verschil tussen een factor en een covariaat in Variantie Analyse?

Antwoord: een factor is een categoriale variabele, een covariaat is een schaal variabele. De termen “factor”, “covariaat” worden van oudsher gehanteerd in deze tak van statistiek, Variantie Analyse.

Win een DASC Dopper!

Enkele vragen zijn nog niet beantwoord; weet u het antwoord op de volgende vragen, laat het ons dan weten op info@data-analyse-academie.nl en win een fraaie DASC dopper! (over de uitslag kan helaas niet worden gecorrespondeerd).

  • Ik wil een staafdiagram maken van een bepaalde variabele in de Chart Builder, maar ik kan alleen een histogram maken van de variabele, hoe kan dat?
  • Welke van de volgende correlaties hebben betekenis:
  • Wat betekent “Classification” en “Regression” in de analysemethode Classification and Regression Trees?
  • Extra vraag: Waar of niet waar: In een dialoogvenster kun je de variabelen in de variabelenlijst (links in het dialoogvenster) sorteren op meetniveau.
  • Extra vraag: Als je bij Frequencies kiest voor een staafdiagram, kun je de staafjes in de grafiek sorteren op aflopende aantallen (de optie “descending counts”). Is dit zinvol voor nominale variabelen, ordinale variabelen, of voor zowel nominale als ordinale variabelen?
  • Extra vraag: Stel je hebt een variabele ISTEVREDEN met antwoorden 0 – niet tevreden en 1 – wel tevreden; je vraagt nu het gemiddelde op van ISTEVREDEN en dat geeft, stel, 0.7. Wat zegt dat?

Conclusie

Het begrip meetniveau is de Heilige Graal als het gaat om verantwoord analyseren van data. Het is een zeer intuïtief begrip, waarvoor geen enkele kansrekening, wiskunde of wat dan ook noodzakelijk is. Desondanks valt op dat veel opleidingen in statistiek, data-analyse en data science juist starten met complexere vakken, waarbij meetniveaus soms over het hoofd worden gezien.

Wij zijn van mening dat minimale wiskundige kennis volstaat om een competente Data Analist of Data Scientist te worden. Fundamentele concepten, zoals meetniveau, zijn essentieel om op een verantwoorde wijze data te analyseren. De Data Analyse Academie en DASC bieden ondersteuning aan gebruikers van IBM SPSS Statistics en IBM SPSS Modeler door middel van toegankelijke, efficiënte, praktijkgerichte cursussen met het uitgangspunt van “learning by doing”.

Ons curriculum is uniek doordat we focussen op basisprincipes om data op verantwoorde wijze te analyseren, waarbij we een beroep doen op intuïtie en geen voorkennis op het gebied van wiskunde vereisen. We omarmen ook kunstmatige intelligentie, zoals bijvoorbeeld ChatGPT, om het beste uit moderne technologieën te halen. Ons motto luidt: Efficiënt Leren, Verantwoord Analyseren!

Wilt u binnen twee dagen op eenzelfde niveau komen als een jaar studie op HBO/Universiteit? Informeer dan naar onze cursussen Basis Statistiek en Statistisch Toetsen, of bezoek onze site op cursussen Statistiek bij de Data Analyse Academie. Wilt u uw arsenaal aan analysemethoden uitbreiden, dan raden wij de cursussen Segmenteren en Voorspellen aan, (twee ééndaagse cursussen). Als tool gebruiken we in deze cursussen IBM SPSS Statistics; IBM SPSS Statistics heeft een zeer gebruikersvriendelijke interface zodat u geen commando’s hoeft te typen en zich kan focussen op hoe u de uitvoer interpreteert.

Wilt u de statistische basis leggen om een Data Scientist te worden, bekijk dan eens het curriculum dat we hebben ontwikkeld voor IBM SPSS Modeler, Data Science met IBM SPSS Modeler, waarin je vanaf nul (beter gezegd, vanaf het begrip meetniveau) binnen 6 dagen leert om Machine Learning modellen in te zetten. En bovendien vertrouwd raakt met alle data science terminologie.

Niet alleen als het gaat om statistiek, maar ook als het gaat om Syntax, efficiënte data preparatie (à la ALTER TYPE), automatiseren van taken, en dergelijke, ondersteunen wij IBM SPSS Statistics gebruikers, op alle niveaus. En datzelfde geldt uiteraard voor IBM SPSS Modeler.

Ook bieden wij al onze cursussen op maat aan; te denken valt aan een selectie van onderwerpen, gebruik van een tool zoals R of Python, werken met eigen data, en meer. En dat in-company, 1-op-1, Train-de-Trainer, remote, of self paced.

Als u de data analyse werkzaamheden uit wilt besteden, of u zich in brede zin wilt oriënteren op analytische workflows, neem dan contact met ons op; wij komen graag met u in gesprek.

Happy learning en stay tuned!

 

Jos den Ronden – Data Analyse Academie

&

Rianne Severin-Hotting – DASC

Decision-Optimization

Behapbaar beginnen met IBM SPSS Custom Tables?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

AVG-naleving bij het gebruik van IBM SPSS Statistics: Tips voor analyseren zonder privacy zorgen

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

AVG naleving bij het gebruik van IBM SPSS Statistics: Tips voor analyseren zonder privacy zorgen

Samenvatting

Auteur(s)

  • Rianne Severin-Hotting, DASC

De Algemene Verordening Gegevensbescherming (AVG) is een wetgeving op het gebied van gegevensbescherming die van kracht is in de Europese Unie. Deze wet, ook wel bekend als de General Data Protection Regulation (GDPR), is sinds 25 mei 2018 van kracht en heeft wereldwijd aanzienlijke invloed gehad op de manier waarop organisaties persoonsgegevens verzamelen, verwerken en beschermen. De AVG is ontworpen om individuen meer controle te geven over hun persoonlijke gegevens en om de rechten en vrijheden van betrokkenen te waarborgen.

Deze wetgeving heeft invloed op vrijwel elke organisatie die persoonlijke gegevens verwerkt, en het is van cruciaal belang om te begrijpen hoe deze van invloed kan zijn op je werk als data-analist. De AVG stelt een reeks beginselen vast die organisaties moeten volgen bij het verwerken van persoonsgegevens, zoals het principe van rechtmatigheid, doelbinding, gegevensminimalisatie en transparantie. Bovendien introduceert het de noodzaak van expliciete toestemming voor gegevensverwerking, net als het recht van betrokkenen om toegang tot hun gegevens te krijgen en het recht om vergeten te worden.

De AVG heeft ook serieuze gevolgen voor organisaties die niet voldoen aan de naleving ervan. Boetes kunnen oplopen tot 4% van de jaarlijkse wereldwijde omzet van een organisatie of €20 miljoen, afhankelijk van welk bedrag hoger is. Deze strenge sancties benadrukken het belang van het begrijpen en naleven van de AVG, vooral voor analisten die gegevens verwerken als onderdeel van hun dagelijkse werkzaamheden. In dit artikel zullen we de stappen bespreken die je kunt nemen om AVG-naleving te waarborgen bij het gebruik van IBM SPSS Statistics en hoe je persoonsgegevens op een veilige en verantwoorde manier kunt verwerken.

AVG naleving bij het gebruik van SPSS: Mogelijke stappen voor veilige gegevensverwerking

IBM SPSS Statistics is een krachtige tool voor gegevensanalyse en statistische verwerking. Als analist gebruik je deze software om inzichten uit gegevens te halen. Maar, hoe heeft de AVG invloed op dit proces?

Om AVG-compatibiliteit te waarborgen bij het gebruik van IBM SPSS Statistics, is het essentieel om aandacht te besteden aan verschillende aspecten van gegevensverwerking. Hieronder volgen een aantal mogelijke stappen om persoonsgegevens binnen IBM SPSS Statistics op een veilige en conforme manier te verwerken:

Toestemming verkrijgen voor gegevensverwerking

Voordat je persoonsgegevens in IBM SPSS Statistics gaat verwerken, moet je ervoor zorgen dat je toestemming hebt van de betrokkenen, zoals je respondenten of klanten. Deze toestemming moet vrijwillig, specifiek, geïnformeerd en ondubbelzinnig zijn. Zorg ervoor dat de doeleinden van gegevensverwerking duidelijk zijn gecommuniceerd, en dat betrokkenen begrijpen waarvoor hun gegevens worden gebruikt. Dit is vooral belangrijk als je gegevens verzamelt via enquêtes of online formulieren.

Gegevensanonimisering en pseudonimisering

Gegevensanonimisering en pseudonimisering zijn twee belangrijke technieken om persoonsgegevens te beschermen en te voldoen aan de AVG-voorschriften. In IBM SPSS Statistics is dit op meerdere manieren op te zetten:

Identificeer persoonsgegevens:

  • Begin met het openen van je SPSS-dataset in IBM SPSS Statistics.
  • Identificeer de variabelen die persoonlijk identificeerbare informatie bevatten, zoals namen, adressen, telefoonnummers en identificatienummers. Dit is de eerste stap om te bepalen welke gegevens geanonimiseerd moeten worden.

Maak een veilige kopie:

  • Voordat je enige vorm van gegevensanonimisering uitvoert, is het aan te raden om een back-up van je originele dataset te maken. Sla een kopie van het bestand op een veilige locatie op, zodat je altijd toegang hebt tot de oorspronkelijke gegevens als dat nodig is.

Gegevensanonimisering:

  • Gegevensanonimisering houdt in dat je persoonlijk identificeerbare informatie verwijdert of wijzigt, zodat deze niet langer kan worden gebruikt om individuen te identificeren. Dit kan onder meer het vervangen van namen door codes, het verwijderen van adressen en telefoonnummers, en het genereren van unieke identificatienummers omvatten.

Pseudonimisering:

  • Pseudonimisering is een proces waarbij je persoonsgegevens vervangt door pseudoniemen of codes, maar waarbij het nog steeds mogelijk is om individuen te herkennen als dat nodig is, bijvoorbeeld voor latere gegevenskoppeling of analyse. Het verschil tussen pseudonimisering en anonimisering is dat pseudoniemen kunnen worden herleid tot de originele gegevens, terwijl dit bij anonimisering niet meer mogelijk is.

Aggregatie van gegevens:

  • Een andere effectieve manier om persoonsgegevens te beschermen, is door gegevens te aggregeren. Dit betekent dat je gegevens samenvoegt tot meer algemene niveaus, zoals gemiddelden, percentages of totalen. Hierdoor wordt het veel moeilijker om individuele betrokkenen te identificeren.

Gegevens minimaliseren:

  • Verwijder of verberg gegevens die niet relevant zijn voor je analyse. Het minimaliseren van de hoeveelheid verzamelde gegevens is een belangrijk principe van de AVG.

 

Door al deze stappen te volgen, kun je persoonsgegevens in IBM SPSS Statistics veilig en in overeenstemming met de AVG verwerken. Dit is cruciaal om de privacy van betrokkenen te beschermen en boetes of juridische problemen te voorkomen.

 

Beveiliging van gegevens

Naast gegevensanonimisering en pseudonimisering is het ook van essentieel belang om gegevens te beveiligen en de toegang tot deze gegevens te controleren:

Wachtwoordbeveiliging:

  • Beveilig je SPSS-databestand tijdens het opslaan met een sterk wachtwoord. Op deze manier zorg je ervoor dat alleen geautoriseerde personen toegang hebben tot de gegevens.

Bestandsbeveiliging:

  • Bewaar SPSS-bestanden op een beveiligde locatie met beperkte toegang tot geautoriseerde gebruikers. Maak bijvoorbeeld gebruik van beveiligde servers of Cloud oplossingen.

Versleuteling van bestanden:

  • Overweeg het gebruik van externe versleutelingssoftware om je SPSS-bestanden te versleutelen. Hierdoor worden de gegevens onleesbaar voor onbevoegden.

Toegangsbeheer:

  • Beperk de toegang tot de SPSS-bestanden en houd een logboek bij van wie toegang heeft tot de gegevens. Dit is belangrijk voor het bijhouden van wijzigingen en het voldoen aan AVG-voorschriften.

Documenteer het proces

Het is van cruciaal belang om een grondige documentatie bij te houden van alle stappen die je hebt ondernomen om persoonsgegevens te anonimiseren en te beveiligen. Deze documentatie kan van pas komen bij het aantonen van AVG-naleving en als bewijs in het geval van een audit. SPSS Syntax is een goede tool om deze documentatie te waarborgen en bij te houden welke stappen er zijn genomen binnen IBM SPSS Statistics voor het anonimiseren van de data.

Periodieke controles

Zorg er verder voor dat je regelmatig je processen voor gegevensanonimisering en beveiliging herziet en bijwerkt om te voldoen aan veranderende AVG-voorschriften. Periodieke nalevingscontroles en audits zijn essentieel om ervoor te zorgen dat je blijft voldoen aan de wetgeving.

Conclusie

Als data-analist is het van cruciaal belang om op de hoogte te zijn van de AVG en hoe deze van toepassing is op het gebruik van IBM SPSS Statistics. Door de AVG-naleving serieus te nemen, kun je niet alleen juridische problemen voorkomen, maar ook het vertrouwen van je klanten en stakeholders behouden. Houd deze richtlijnen in gedachten bij het gebruik van SPSS en blijf op de hoogte van eventuele wijzigingen in de wetgeving.

Wil je dieper ingaan op deze praktische toepassingen in SPSS? Neem de volgende stap!

Ben je klaar om persoonsgegevens in IBM SPSS Statistics op een veilige en AVG-conforme manier te verwerken? Wil je nog dieper ingaan op de beschreven stappen en technieken? Overweeg dan om deel te nemen aan ons aanstaande webinar of onze praktische trainingssessie bij DASC (Data analyse & AVG compliance). Onze deskundige instructeurs zullen je begeleiden bij het toepassen van de beschreven handelingen in SPSS en je helpen AVG-naleving te waarborgen. Leer hoe je gegevens anonimiseert, beveiligt en voldoet aan de strengste privacywetgeving.

Mis deze kans niet om je vaardigheden te verbeteren en te zorgen voor een veilige en verantwoorde gegevensverwerking. Schrijf je vandaag nog in voor ons webinar of training en neem de eerste stap naar gegevensbescherming en AVG-naleving.

Decision-Optimization

Behapbaar beginnen met het naleven van AVG wetgeving bij het analyseren binnen IBM SPSS Statistics

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

Ontdek de samenwerking tussen R, Python en IBM SPSS Statistics en haal meer uit uw data

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Open Source integratie - Ontdek de samenwerking tussen R, Python en SPSS Statistics

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

In de wereld van data-analyse staan analisten vaak voor de keuze: werken met R, Python, of vertrouwen op de kracht van IBM SPSS Statistics. Elke tool brengt zijn eigen unieke vaardigheden en beperkingen met zich mee. R en Python blinken uit in programmeerflexibiliteit, terwijl SPSS Statistics uitmuntende statistische functionaliteiten biedt. Maar wat als er een manier is om het beste van alle werelden te benutten?

Veel analisten zouden graag een vorm van integratie van deze tools willen, waarbij ze gebruik kunnen maken van de voordelen van elke tool. En raad eens? Het is mogelijk. In dit artikel nemen we je mee op een ontdekkingsreis naar de fascinerende wereld waar R, Python en SPSS Statistics samenkomen. Of je nu een doorgewinterde data analist bent of net begint, deze integratie opent nieuwe deuren voor gegevensverkenning en inzichten, en dat alles zonder de noodzaak van diepgaande programmeerkennis.

Open source talen in IBM SPSS Statistics

Sinds IBM SPSS Statistics versie 16 (!) is de naadloze integratie van Python en R binnen SPSS Statistics een feit. En hier komt het goede nieuws: je hebt geen diepgaande kennis van Python of R nodig. Deze aanvullende functionaliteit wordt gepresenteerd in de vorm van kant-en-klare dialoogvensters, waardoor het gebruik ervan toegankelijk is voor elke analist, ongeacht hun programmeervaardigheden.

Deze extra uitbreidingen, in feite Python of R onder de motorkap, staan bekend als extensiecommando’s, afgekort als extensies. Je herkent ze eenvoudig in de menu’s, bijvoorbeeld wanneer je het Transform-menu raadpleegt, het plus icoontje geeft aan dat het om een extensie gaat.

Transform menu met Extensies

Deze procedures maken géén deel uit van een bepaalde module van IBM SPSS Statistics. Het zijn namelijk procedures die in Python of R geschreven zijn en die, inclusief dialoogvenster, geïntegreerd zijn in IBM SPSS Statistics. Er is zelfs een corresponderend Syntax commando beschikbaar.

De uitdaging:  Dummy variabelen op basis van een categoriale variabele

Stel je voor dat je het inkomen van een persoon wilt voorspellen op basis van leeftijd, jaren ervaring en beroep. Hierbij is het beroep een categoriale variabele met categorieën zoals 1 = zorg, 2 = overheid, en 3 = commercieel. De uitdaging ontstaat wanneer je de procedure Regression wilt gebruiken voor deze voorspelling.

In de standaard workflow van SPSS Statistics mag je een categoriale variabele niet direct gebruiken in het dialoogvenster van de Regression. De benadering die vaak wordt toegepast, en die we hier willen vermijden, is het maken van afzonderlijke variabelen voor elk beroep. Elke nieuwe variabele krijgt dan de waarde 1 als een persoon dat specifieke beroep uitoefent, en 0 in alle andere gevallen. Dit leidt tot een reeks dummyvariabelen, bijvoorbeeld dummy_1, dummy_2 en dummy_3;

Beroep

dummy_1

dummy_2

dummy_3

1 (zorg)

1

0

0

2 (overheid)

0

1

0

3 (commercieel)

0

0

1

Een persoon werkzaam in de zorg zou dan bijvoorbeeld een score van 1 hebben op dummy_1, 0 op dummy_2 en 0 op dummy_3. We kunnen deze variabelen met de Compute functie in SPSS Statistics maken, waarna we de variabelen duidelijkheidshalve ook labels moeten geven. Met drie categorieën is dat wellicht nog te doen, maar naarmate het aantal categorieën groter is wordt steeds meer geduld en doorzettingsvermogen gevraagd. De vraag wordt dan ook, is er een efficiënter alternatief beschikbaar?

Python gebruiken om dummy variabelen te maken

Het antwoord op deze uitdaging komt in de vorm van de extensie “Create Dummy Variables”. Deze krachtige extensie, gebaseerd op Python, biedt een gestroomlijnde oplossing voor het creëren van dummyvariabelen, waardoor de complexiteit van het omgaan met categoriale variabelen in SPSS Statistics aanzienlijk wordt verminderd.

Laten we hiernaar kijken op basis van een praktisch voorbeeld, we maken hiervoor in dit artikel gebruik van een standaard Sample bestand uit IBM SPSS Statistics, namelijk survey_sample.sav.

Stel, je wilt Regression gebruiken om het aantal uren dat mensen aan televisiekijken besteden (variabele tvhours) te voorspellen op basis van ‘leeftijd (age)’ en ‘huwelijkse staat (marital)’. Huwelijkse staat is hierbij een categoriale variabele met verschillende categorieën, zoals Married, Widowed, Divorced, enzovoort.

Om ‘huwelijkse staat’ effectief in de regressie op te nemen, is het noodzakelijk dummyvariabelen te creëren voor elke categorie. Hier komt de extensie “Create Dummy Variables” van pas.

  • Menu -> Transform -> Create Dummy Variables

Het dialoogvenster kent tal van opties, maar zijn voor onze discussie niet relevant; het belangrijkst is op te merken dat het dialoogvenster er uit ziet als een regulier IBM SPSS Statistics dialoogvenster. Je zou niet zeggen dat dit dialoogvenster feitelijk is ontworpen door een (expert) gebruiker en Python code gaat uitvoeren!

Extensie: Create dummy variables

We voeren de variabele ‘Marital’ in bij de Create Dummy Variables for optie en voegen een root name toe. Na het bevestigen van je keuzes worden de dummyvariabelen moeiteloos toegevoegd aan je databestand, inclusief duidelijke variabele labels. Deze dummyvariabelen worden keurig georganiseerd op basis van de categorieën van de oorspronkelijke variabele, waardoor ze direct klaar zijn voor gebruik in je Regression-analyse. Het resultaat? Een snelle, efficiënte, en intuïtieve oplossing voor een probleem dat anders tijdrovend en complex zou zijn.

Automatisch gegenereerde dummy variabelen

Je kunt de dummy variabelen vervolgens gebruiken in Regression. Dit laten we hier voor wat het is. Opmerking: als de eerste 5 dummy variabelen 0 zijn dan weet je dat de zesde dummy 1 moet zijn, dus de zesde dummy is redundant en kun je weglaten bij Regression.

Zoals we al vaststelden heeft een extensie exact dezelfde look & feel als een reguliere SPSS functie. Maar er is meer; het is ook mogelijk om het corresponderende commando in syntax op te nemen door te klikken op paste. Zoals je ziet is de opbouw gelijk aan de overige SPSS functies, de extensie is enkel te onderscheiden aan het hoofdcommando SPSSINC, wat duidt op het gebruik van een extensie.

Een extensie beschikbaar stellen in SPSS Statistics

Om gebruik te kunnen maken van een extensie die daadwerkelijk Python- of R-code uitvoert, moet je ervoor te zorgen dat Python respectievelijk R op je systeem zijn geïnstalleerd. Hierbij speelt ook de installatie van een zogenaamde plug-in een cruciale rol, omdat deze zorgt voor de naadloze integratie van IBM SPSS Statistics met Python of R.

De integratie van Python en R met IBM SPSS Statistics is afhankelijk van de versie van IBM SPSS Statistics die je gebruikt. In de recentere versies wordt Python, samen met de integratie plug-in en relevante extensies, standaard mee geïnstalleerd. In IBM SPSS Statistics versie 29 staat bijvoorbeeld in de Help-bestanden te lezen: “The IBM SPSS Statistics – Integration Plug-in for Python is a part of the IBM SPSS Statistics product. It also includes Python 3.10 (…) and a set of extension commands that are implemented in Python that provide capabilities beyond what is available with built-in SPSS Statistics procedures.”

Dit betekent dat Python 3.10 samen met de integratie plug-in wordt geïnstalleerd, vergezeld van een reeks extensies die in Python zijn ontwikkeld en extra functionaliteiten bieden bovenop wat standaard in SPSS Statistics beschikbaar is.

In het geval van R geldt hetzelfde principe. In versie 29 wordt R (versie 4.2) automatisch geïnstalleerd, inclusief de R plug-in en bijbehorende extensies ontwikkeld in R.

Voor oudere versies of specifieke configuraties is het raadzaam de relevante documentatie te raadplegen. Het kan voorkomen dat je Python of R en de bijbehorende plug-ins apart van IBM SPSS Statistics moet installeren, afhankelijk van de versie en specifieke systeeminstellingen.

De Extension Hub: Nog meer mogelijkheden!

Zelfs als je al enkele extensies hebt die samen met IBM SPSS Statistics zijn geïnstalleerd, betekent dit nog niet dat je alle beschikbare extensies hebt verkend. De Extension Hub biedt een extra bron van diverse extensies die je gemakkelijk kunt toevoegen om de functionaliteit van SPSS Statistics verder uit te breiden.

Om toegang te krijgen tot de Extension Hub, navigeer je eenvoudig naar het hoofdmenu van IBM SPSS Statistics, kies je voor Extensions en vervolgens voor Extension Hub. Hier vind je een uitgebreide selectie van extensies die zijn onderverdeeld op basis van type, programmeertaal (Python, R of SPSS Statistics Syntax) en de bron (IBM of community-ontwikkeld).

De kracht van de Extension Hub ligt in zijn gebruikersvriendelijkheid. Je kunt eenvoudig filteren op de specifieke eigenschappen die je nodig hebt voor je analyse. Wil je bijvoorbeeld extensies die zijn geschreven in Python? Of zoek je naar extensies die door de gemeenschap zijn ontwikkeld? Met slechts een paar muisklikken heb je toegang tot een breed scala aan extra functionaliteiten.

Bij elke vermelde extensie in de Extension Hub krijg je ook direct inzicht of je huidige IBM SPSS Statistics-installatie voldoet aan de vereisten voor het gebruik van de desbetreffende extensie. Concreet wordt gecontroleerd of Python of R en de bijbehorende plug-ins correct zijn geïnstalleerd, waardoor je snel kunt bepalen welke extensies geschikt zijn voor jouw analysebehoeften.

De Extension Hub

Verder verdiepen

In essentie voegen extensies een schat aan kant-en-klare functionaliteit toe aan IBM SPSS Statistics. Wil je ontdekken welke extensies je al hebt en hoe ze je analyses kunnen versterken? Neem een kijkje in de menu’s, let op de procedures met een +, en raadpleeg de Help-functie in het betreffende dialoogvenster. Breid je mogelijkheden vervolgens verder uit door een bezoek te brengen aan de Extension Hub, waar je een overvloed aan handige extensies kunt vinden en toevoegen aan je toolkit.

Het valt ons op dat extensies nog relatief onbekend zijn bij veel IBM SPSS Statistics gebruikers. Deze extra functionaliteit is in de loop der jaren ontwikkeld en biedt de mogelijkheid om het maximale uit IBM SPSS Statistics te halen. Om analisten snel op de hoogte te brengen van deze minder bekende maar zeer nuttige opties, heeft DASC B.V. in samenwerking met de Data Analyse Academie nieuwe cursussen ontwikkeld over o.a. dit onderwerp. Deze cursussen zijn een aanrader voor zowel beginners als ervaren gebruikers die hun kennis willen verdiepen of opfrissen. De cursussen kunnen op maat worden aangepast voor meerdere personen binnen een organisatie, als in-company cursus, of als 1-op-1 coaching on the job om snel operationeel te zijn. Schrijf je in om je verder te verdiepen in de mogelijkheden van IBM SPSS Statistics.

Happy learning en stay tuned!

 

Jos den Ronden, Data Scientist, Data Analyse Academie

Rianne Severin-Hotting, Data Scientist, DASC B.V.

Decision-Optimization

Behapbaar beginnen met IBM SPSS Statistics?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

Dialoogvensters in IBM SPSS Statistics: Een rijke geschiedenis

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Een rijke historie: Dialoogvensters in SPSS Statistics

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

Verder verdiepen?

IBM SPSS Statistics kent een rijke historie. Al in de jaren 80 had de software met de eerste desktop versie, SPSS/PC+, een grafische interface. In de jaren 90 zagen we flarden hiervan terug in de dialoogvensters van het toenmalige SPSS for Windows. De laatste 30 jaar zijn er nog vele nieuwe procedures aan de software toegevoegd, met dialoogvensters die qua vormgeving steeds nieuwe features brachten.

Momenteel hebben we drie generaties dialoogvensters in IBM SPSS Statistics, elk met een eigen look & feel. Dit kan vooral voor nieuwe gebruikers enigszins verwarrend zijn. Tegelijkertijd kunnen gebruikers die al langere tijd met IBM SPSS Statistics werken verrast worden door de opties die een dialoogvenster wel of juist niet te bieden heeft.

In dit artikel staan we dan ook stil bij de drie typen dialoogvensters, zodat je de verschillen tussen de dialoogvensters leert herkennen en, bovenal, er rekening mee kunt houden

Het begrip meetniveau

Om de verschillen tussen dialoogvensters inzichtelijk te maken hebben we het begrip meetniveau van een variabele nodig. Heel in het kort: met het begrip meetniveau kunnen we een onderscheid maken tussen variabelen op basis van wat de waarden van een variabele voorstellen. IBM SPSS Statistics onderscheidt 3 meetniveaus:

  • Nominaal: de waarden van een variabele zijn feitelijk codes die de antwoordcategorieën representeren; welke code je aan welke categorie toekent is volkomen arbitrair. De codering van bijvoorbeeld een variabele geslacht kan zijn 1 voor Man, 2 voor Vrouw, 3 voor Non-binair, maar even valide is 1 voor Non-binair, 2 voor Vrouw, en 3 voor Man. De codes zijn alleen maar bedoeld om de verschillende antwoordmogelijkheden te benoemen (nomen = benoemen).
  • Ordinaal: De codes zijn niet arbitrair maar weerspiegelen de ordening in de antwoordcategorieën; zo is een natuurlijke codering voor een variabele leeftijdsklasse: 1 voor Jong, 2 voor Middelbaar, en 3 voor Ouder. Een codering zoals 1 voor Ouder, 2 voor Jong, en 3 voor Middelbaar is niet alleen onhandig maar vraagt om problemen.
  • Schaal: De waarden vertegenwoordigen geen codes maar zijn meetwaarden op een bepaalde schaal. Zo kun je een variabele inkomen hebben, met een waarde die het inkomen in euro’s aangeeft.

In de dialoogvensters van IBM SPSS Statistics zie je dan ook de volgende icoontjes bij de variabelen:

Nominaal, de codes representeren gelijkwaardige categorieën. Voorbeelden van variabelen: geslacht, etniciteit, regio, branchecode

Ordinaal, de codes representeren categorieën die geordend zijn. Voorbeeld van variabelen: leeftijdsklasse (van jong naar ouder), inkomensklasse (van laag naar hoog), opleiding (van laag naar hoog).

Schaal, de waarden vormen een schaal. Voorbeeld van variabelen: inkomen (in euro’s), leeftijd (in jaren) en lengte (in cm).

Look & Feel herkennen in dialoogvensters

In het licht van meetniveaus lopen we de 3 generaties dialoogvensters langs.

 

Opmerking: We werken in de voorbeelden met survey_sample.sav; dit bestand vind je in de Samples map, een submap van de map waarin IBM SPSS Statistics is geïnstalleerd. Als je wilt kun je het hier gepresenteerde zelf uitvoeren in IBM SPSS Statistics.

 

Type 1

Het eerste type dialoogvenster, met als voorbeeld Frequencies, houdt geen rekening met meetniveaus. Je kunt van elke variabele statistieken opvragen, ongeacht of die nu betekenis hebben of niet.

Freqencies dialoogvenster

Hieronder zie je de uitvoer van Frequencies voor de variabele Marital status.

Frequencies heeft geen enkele moeite met het uitrekenen van de gemiddelde huwelijkse staat, hier 2,45. Alleen, dit gemiddelde zegt niets. De huidige codering is dat 1 staat voor Getrouwd en 5 voor Nooit getrouwd. Maar, hadden we gekozen voor bijvoorbeeld 1 voor Nooit getrouwd en 5 voor Getrouwd, dan was daar een ander gemiddelde uitgekomen. Het gemiddelde is in dezen een nietszeggende statistiek voor een nominale variabele, ook al laat het dialoogvenster Frequencies dit toe.

Maar wat in een dialoogvenster zoals Bivariate Correlations? Ook dit is een eerste generatie dialoogvenster en houdt dus geen rekening met het meetniveau van de variabelen: je kunt elke variabele opnemen in dit dialoogvenster (mits numeriek). De correlaties worden keurig uitgerekend, maar de grote vraag is: hebben deze betekenis?

Dit hangt van het meetniveau van de variabele en het is aan de gebruiker om na te gaan of een bepaalde statistiek betekenis heeft gegeven het meetniveau van de variabele in kwestie. Of, anders gezegd, ook al kun je een bepaalde statistiek uitrekenen in IBM SPSS Statistics, dat wil niet per sé zeggen dat de statistiek ook zinvol is.

Type 2
Custom Tables

Het tweede type dialoogvenster, zoals Custom Tables, houdt wél rekening met meetniveaus. Wanneer je in het menu van SPSS kiest voor Analyze -> Tables -> Custom Tables, krijg je allereerst een melding over meetniveaus

De melding komt er op neer dat het meetniveau van de variabelen correct moet zijn om de tabel te maken die je in gedachten hebt. Door op Define Variable Properties te klikken krijg je de mogelijkheid om de meetniveaus te checken en daar waar nodig te wijzigen.

In het dialoogvenster van Custom Tables zie je opnieuw de icoontjes van de meetniveaus. Als we een categorische variabele nemen zoals bijvoorbeeld gender en deze naar de rij of kolom van de tabel slepen, dan worden de categorieën automatisch weergegeven. Voor een schaalvariabele, bijvoorbeeld age, wordt automatisch het gemiddelde gepresenteerd

Het feit dat het dialoogvenster Custom Tables rekening houdt met de meetniveaus van de variabelen kan je ook anders bekijken: het zal je nooit lukken om een gemiddelde op te vragen van een variabele als die variabele nominaal of ordinaal is. En van hetzelfde laken een pak: je zult nooit de categorieën zien van een variabele als die variabele het schaal meetniveau heeft.

Het kan natuurlijk gebeuren dat je pas in het dialoogvenster van Custom Tables merkt dat het meetniveau van een variabele verkeerd staat. Gelukkig kun je het meetniveau van een variabele ook tijdelijk aanpassen in het Custom Tables dialoogvenster zelf: klik met de rechtermuis op de variabele waarna je het meetniveau van een variabele kunt bepalen. “Tijdelijk”, want het geldt alleen maar voor Custom Tables.  Om het meetniveau definitief vast te leggen kun je in het menu Data -> Variable Properties gebruiken.

 
Visual binning

Een ander voorbeeld van een dialoogvenster dat rekening houdt met het meetniveau van de variabelen is Visual Binning. (Visual Binning, in het menu Transform, maakt klassen van het type: van <waarde 1> tot <waarde 2> wordt klasse 1, van <waarde 2> tot <waarde 3> wordt klasse 3 , etcetera; het is een heel snel alternatief voor Recode.) Het kan gebeuren dat de variabele op basis waarvan je de klassenindeling wilt maken ontbreekt in dit dialoogvenster. Reden: in het Visual Binning-dialoogvenster worden alleen ordinale en schaal variabelen getoond en de variabele in kwestie is als nominaal gedefinieerd.

Een goed voorbeeld van het verschil tussen de beide typen dialoogvensters vind je overigens in het Graphs menu, waar je het dialoogvenster van de Chart Builder (tweede type, je kunt alleen een Bar chart opvragen van een nominale of ordinale variabele)) eens kunt vergelijken met dat van Bar (eerste type, je kunt een Bar Chart opvragen van elke variabele, ook al levert dat een nonsense grafiek op).

Type 3

Het derde type dialoogvenster houdt rekening met meetniveaus en maakt gebruik van de rol die aan een variabele is toebedeeld.

Ter illustratie zien we hieronder het dialoogvenster van de procedure Automatic Linear Modeling. (Automatic Linear Modeling is een alternatief voor de procedure Regression. Beide procedures voorspellen een bepaalde variabele, de doelvariabele, ofwel target, op basis van een aantal voorspellende variabelen, de predictors of inputs).

Getuige het schaal icoontje bij Required field moet het meetniveau van de doelvariabele schaal zijn, terwijl de predictoren elk meetniveau kunnen hebben. Dus ook in dit dialoogvenster zien we dat met meetniveaus rekening wordt gehouden. Hier is echter meer aan de hand…

De variabelen staan niet klaar in de variabelenlijst links (onder Fields), maar zijn alvast ingevuld onder Predictors (Inputs).  De reden is dat dit dialoogvenster gebruik heeft gemaakt van de Role eigenschap van een variabele. Zoals alle variabele-eigenschappen kan je rollen op verschillende manieren vastleggen.

De eerste mogelijkheid is om dit rechtstreeks in de Variable View aan te passen. De tweede optie is via de Define Variable Properties (Data -> Define Variable Properties) zoals je ook in bovenstaande afbeelding ziet.

Als je wilt dat de variabelen nooit voor-ingevuld worden in dit type dialoogvenster, zet de rol voor alle variabelen dan op None.

Tip: dit gaat het snelst via Syntax.

Conclusie

In dit artikel hebben we stil gestaan bij de drie typen dialoogvensters die je ziet in IBM SPSS Statistics.

Het eerste type (a la Frequencies) houdt geen rekening met meetniveaus en rollen; wat betreft het meetniveau is het daarom aan de gebruiker om te beseffen dat allerhande statistieken niet per sé zinvol zijn alleen maar omdat ze in het dialoogvenster kunnen worden opgevraagd.

Het tweede type dialoogvenster (zoals Custom Tables) houdt wel rekening met meetniveaus maar niet met rollen; wanneer je dit type dialoogvenster oproept zal IBM SPSS Statistics eerst vragen of variabelen de juiste meetniveaus hebben en de gelegenheid bieden om het meetniveau van een variabele te veranderen. Hou er rekening mee dat het meetniveau van een variabele dicteert welke statistieken je vervolgens wél en welke statistieken je níet kunt opvragen.

Het meest recente type dialoogvenster (denk aan Automatic Linear Modeling) houdt ook rekening met meetniveaus en herkent bovendien de rol die aan variabelen is toebedeeld. Hier kun je je voordeel mee doen door allereerst de rol van een variabele vast te leggen waarna alle dialoogvensters van dit type die rol zullen  respecteren.

IBM SPSS Statistics: What’s Next?

Zoals gezegd, IBM SPSS Statistics kent nogal wat historie en elke versie komt er functionaliteit bij. Zo zijn er weinig-bekende opties die het werken met IBM SPSS Statistics enorm vergemakkelijken. Wil je je je kennis van IBM SPSS Statistics opfrissen of leren welke handige features de laatste jaren zijn toegevoegd aan de software, dan verwijzen we graag naar het beschikbare cursusaanbod van DASC en de Data Analyse Academie. Cursussen verzorgen we ook in-company of in de vorm van 1-op-1 coaching on the job.

Happy learning en stay tuned!

Jos den Ronden, Data Scientist, Data Analyse Academie

Rianne Severin-Hotting, Data Scientist, DASC B.V.

Decision-Optimization

Optimaal gebruik maken van SPSS Statistics?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

Hoe presenteer je een enquêtevraag met meer dan 1 antwoord mogelijkheid?

Verantwoord analyseren, interpreteren en presenteren in SPSS Statistics

Multiple Responses - meerdere antwoorden onmogelijk?

Samenvatting

Auteur(s)

  • Jos den Ronden, Data Analyse Academie
  • Rianne Severin-Hotting, DASC

Verder verdiepen?

Een essentieel aspect van gegevensanalyse is het vermogen om informatie op een heldere en begrijpelijke manier te presenteren. In enquêtes is het vaak zo dat respondenten meerdere antwoorden kunnen geven op één vraag. Dit creëert een uitdaging: hoe presenteer je deze gegevens inzichtelijk en overzichtelijk?

Verschillende procedures binnen IBM SPSS Statistics kunnen met multipele response sets omgaan; binnen de basismodule, IBM SPSS Statistics Base, heb je de procedure Multiple Response en binnen de add-on module Custom Tables is er de optie Multiple Response Sets. In dit artikel richten we ons op de procedure ‘Multiple Response’ uit de basismodule, waarbij we ons beperken tot multipele dichotomieën.

Waarom zijn Multiple Response Sets belangrijk?

Laten we het concept van een Multiple Response Set verkennen aan de hand van een voorbeeld. Stel je voor dat je een enquête hebt afgenomen met daarin de volgende vraag en antwoorden:

Welke Sociale Media gebruik je? (meer dan 1 antwoord mogelijk)

  • Facebook
  • X (Twitter)
  • Instagram
  • TikTok
  • Snapchat

Na de gegevens verzameld te hebben wil je weten wat de meest populaire social media zijn. En hier ontstaat het probleem: respondenten kunnen meerdere social media noemen. De eerste uitdaging is om al deze variabelen in één overzichtelijke tabel te presenteren. Hoewel je met basis functionaliteiten zoals Frequencies weliswaar afzonderlijke tabellen kunt genereren en deze in Excel kunt samenvoegen, is dat niet de meest efficiënte manier om dit te doen.

Bovendien, omdat elk antwoord afzonderlijk wordt gerapporteerd, ontbreekt de mogelijkheid om statistische uitspraken te doen over welke combinaties vaak voorkomen en om de frequenties en percentages van deze combinaties te berekenen.

 

Werken met Multiple Response Sets: Dichotomieën en Categorieën

IBM SPSS Statistics biedt een oplossing in de vorm van Multiple Response. Deze handige functie bundelt alle antwoorden tot één enkele “variabele”. (“Variabele” omdat we zullen zien dat het geen fysieke variabele in het databestand is.) Hierdoor kun je snel en efficiënt zien wat het meest gegeven antwoord is en welke combinaties van antwoorden vaak voorkomen, met de bijbehorende percentages. Zodoende worden verbanden inzichtelijk, die bovendien statistisch onderbouwd kunnen worden.

De sets kunnen op twee manieren worden gebruikt: met dichotome variabelen of met gecodeerde categorieën.

  • Dichotome Multiple Response Sets: Hierbij hebben we voor elk antwoord een variabele gemaakt, waarbij elke variabele slechts twee categorieën heeft, 0 als de respondent het desbetreffende antwoord niet gekozen heeft en 1 als de respondent het desbetreffende antwoord wél gekozen heeft. In ons voorbeeld zouden we 4 variabelen hebben; iemand die bijvoorbeeld Facebook en TikTok scoort een 1 op de eerste en een 1 op de vierde variabele, en een 0 op de tweede en derde variabele. Dit type set is handig omdat je alleen de positieve antwoorden (1 in dit geval) hoeft te tellen.
  • Categorie Multiple Response Sets: Bij deze sets hebben meerdere variabelen dezelfde codering. In de lijn van het voorgaande voorbeeld: stel je voor dat de vraag luidde: “Noem de twee social media die je het vaakst gebruikt”, met dezelfde antwoordmogelijkheden als hiervoor. Men kan dus hoogstens twee social media noemen en daarom volstaan met twee variabelen om de antwoorden te coderen; beide variabelen hebben dan hetzelfde codeerschema:  1=Facebook, 2=X (Twitter), 3=Instagram, 4=TikTok. Iemand die het vaakst Facebook en TikTok gebruikt krijgt een 1 op de  eerste variabele en een 4 op de tweede variabele.

Categorie Multipele Response Sets worden vaak gebruikt om spontane naamsbekendheid te meten. Zo kan een vraag zijn: Noem drie merken pindakaas, waarbij men merken pindakaas uit het hoofd moet noemen (dus zonder dat men pindakaas merken in een lijstje ziet). Er kunnen wel 17 merken pindakaas worden genoemd door alle respondenten samen, maar gegeven de vraagstelling kan niemand meer dan 3 merken noemen. Om de antwoorden te coderen heb je dan ook maar 3 variabelen nodig, alle met dezelfde codering, in plaats van 17 variabelen die elk 0/1 zijn gecodeerd en grotendeels 0 zijn.

Hoe werkt Multiple Response Sets in IBM SPSS Statistics?

Laten we kijken naar de concrete stappen voor het werken met Multiple Response in IBM SPSS Statistics. We werken met een voorbeeld databestand genaamd survey_sample.sav, een survey gehouden in 2008 onder 2,832 Amerikanen. Dit voorbeeldbestand is beschikbaar in de Samples map, wat een submap is van de map waarin IBM SPSS Statistics is geïnstalleerd. Als je dat wilt, kun je de stappen die we hier presenteren zelf uitvoeren in IBM SPSS Statistics met behulp van dit voorbeeldbestand.

In dit onderzoek is de vraag gesteld welke nieuwsbronnen men gebruikt, waarbij men meerdere nieuwsbronnen kon noemen. Men kon een of meer van de volgende nieuwsbronnen kiezen:  krant (variabele news1), tijdschriften (news2), TV (news3), radio (news4), of internet (news5).

Wanneer we een standaard frequentie analyse uitvoeren op de variabele news 1, zien we dat 805 respondenten, ofwel 28,4% van de 2,832 respondenten het nieuws uit de krant haalt. Onthoud dit getal voor straks!

Met de procedure Multiple Response uit de basismodule kunnen we de nieuwsbronnen efficiënt in één tabel presenteren:

  1. Definieer de set: Kies in het SPSS menu ‘Analyze’ -> ‘Multiple Response’ -> ‘Define Variable Sets’. Selecteer de relevante variabelen (news1 tot news5), geef de set de naam NIEUWSBRONNEN en kies de juiste codering (Dichotomies, counted value = 1).
  2. Bereken de frequenties: Kies ‘Analyze’ -> ‘Multiple Response’ -> ‘Frequencies’. Selecteer de gedefinieerde set en bekijk de resultaten.
Zoals je ziet wordt er geen nieuwe variabele aan het databestand zelf toegevoegd. De set van 5 variabelen wordt gebundeld, waarna je er in de Multiple Response procedure aan kan refereren.  
 
 
 

Het mysterie van de niet-kloppende percentages

Wanneer we de frequentie analyse uitvoeren over de Multiple Response set komt er een interessant, maar ook verwarrend aspect naar voren. Het totaal aantal respondenten in de enquête is bijvoorbeeld niet 2,832 maar 3,594. Dit komt omdat dit totaal het aantal keren weerspiegelt dat een nieuwsbron is genoemd, niet het aantal respondenten.

Dit totaal van 3,594 verklaart ook de percentages in de Responses kolom: 805 is 22,4% van 3,594. Interpretatie: Van alle nieuwsbronnen die men genoemd heeft betrof het in 22,4% van de gevallen de krant. Het voordeel van percentages gebaseerd op de responses is dat het totaal nu uit komt op 100% (3,594 positieve responses is 100% van alle 3,594 responses).

In plaats van de percentages te baseren op de responses, kun je ze ook baseren op de cases (de respondenten). En dan zie je iets heel merkwaardigs: in de oorspronkelijke uitvoer van Frequencies zagen we dat 28,4% (805 van alle 2,832 respondenten) het nieuws uit de krant haalt.  In de nieuwe tabel staat echter in de kolom Percent of Cases, een percentage van 38,7%.

Geef jezelf een moment om dit te verklaren. Welnu, het totaal aantal cases waarop de percentages zijn gebaseerd is niet het totaal aantal cases in het databestand, maar is het aantal cases dat minstens 1 nieuwsbron heeft genoemd. Je kunt dan ook niet zeggen dat 38,7% van alle respondenten de krant heeft genoemd; we moeten zeggen dat 38,7% van al diegenen die minstens één nieuwsbron heeft genoemd, de krant heeft genoemd

Oorspronkelijke Frequentie analyse Krant
Nieuwe Frequentie analyse over de multiple response set

Verificatie van resultaten

Je kunt bovenstaande resultaten verifiëren door een variabele te maken, genaamd ‘GEENNIEUWSBRON’, die een waarde van 1 krijgt als er geen enkele nieuwsbron is genoemd en 0 in alle andere gevallen. Dit kun je snel bereiken met de volgende stappen:

  1. Kies ‘Transform’ –> ‘Compute’.
  2. Typ, onder ‘Target Variable’ de naam van deze nieuwe variabele, GEENNIEUWSBRON.
  3. Klik op ‘Type & Label’ en typ ‘GEEN ENKELE NIEUWSBRON GEBRUIKT’ bij ‘Label’, en klik dan op ‘Continue’.
  4. Onder ‘Numeric Expression’, typ ‘SUM(news1 TO news5) = 0’ (of “paste” deze uitdrukking vanuit de variabelenlijst en functies).
  5. Klik op ‘OK’.

De numerieke expressie evalueert of de som van de vijf variabelen ‘news1’ tot ‘news5’ gelijk is aan 0. Het resultaat is 1 als er geen enkele nieuwsbron is genoemd, en 0 als ten minste één nieuwsbron is genoemd. Dit is een handige manier om vast te stellen of iemand überhaupt een nieuwsbron heeft genoemd. Zorg ervoor dat de individuele variabelen ‘news1’ tot ‘news5’ zijn gecodeerd als 0 en 1 voor deze expressie om correct te werken.

Als je een frequentieverdeling van deze nieuwe variabele bekijkt, zul je ontdekken dat bijvoorbeeld 751 respondenten geen enkele nieuwsbron hebben genoemd, terwijl 2,081 respondenten minstens één nieuwsbron hebben genoemd. Dit is een waardevolle controlestap om te zorgen dat de berekening correct is.

Frequentieverdeling controlevariabele

Waarom is dit belangrijk? Het stelt je in staat om de percentages in de Multiple Response-tabel te valideren en ervoor te zorgen dat ze overeenkomen met andere berekeningen. Als je de nieuwe variabele ‘GEENNIEUWSBRON’ toevoegt aan de Multiple Response-set en opnieuw de Multiple Response-tabel genereert, zul je merken dat het percentage van respondenten dat de krant noemt nu weer in overeenstemming is met het percentage dat eerder is berekend met de ‘Frequencies’-functie, namelijk 28.4%. Dit bevestigt de nauwkeurigheid van de resultaten.

De kracht van Custom Tables

IBM SPSS Statistics biedt geavanceerdere mogelijkheden voor gegevenspresentatie via de Custom Tables-module. Hiermee kun je uitgebreidere analyses uitvoeren, zoals het kruisen van Multiple Response Sets met andere variabelen en het aanpassen van de opmaak van tabellen. Het verschil tussen het definiëren van Multiple Response Sets in de basismodule en de Custom Tables-module is dat de set in de Custom Tables-module wordt opgeslagen in het databestand.

Dit artikel biedt slechts een introductie tot het gebruik van Multiple Response Sets in IBM SPSS Statistics. Er zijn nog veel meer mogelijkheden om deze tool te benutten, zoals het presenteren van sets met gecodeerde categorieën en het toepassen van geavanceerde statistische tests.

Als je meer wilt leren over Custom Tables en alle mogelijkheden die het biedt, raden we je aan om onze cursus “Custom Tables met SPSS Statistics” te volgen. Wil je meer weten over hoe je efficiënt je data prepareert (zie het Compute voorbeeld in dit artikel), zie dan onze cursus Data Preparatie met IBM SPSS Statistics.

Happy learning en stay tuned!

Jos den Ronden, Data Scientist, Data Analyse Academie

Rianne Severin-Hotting, Data Scientist, DASC B.V.

Decision-Optimization

Behapbaar beginnen met IBM SPSS Custom Tables?

We starten compact, zodat u groots kunt finishen. Door het afgebakende vraagstuk ziet u snel resultaat.

De kracht van het combineren van predictive en prescriptive analytics

DE KRACHT VAN HET COMBINEREN VAN PREDICTIVE EN PRESCRIPTIVE ANALYTICS

Rianne Hotting | 2 mei 2022

De meeste analisten zijn ondertussen bekend met termen als Machine Learning (ML) en Artificiële Intelligentie (AI). Er is een enorme groei aan modellen met als doel uiteenlopende vraagstellingen vanuit organisaties te beantwoorden. Om deze vragen te beantwoorden wordt vaak gebruik gemaakt van predictive analytics. In dit blog willen we u de link laten zien tussen predictive analytics en prescriptive analytics, de opvolgende stap op uw voorspellende modellen. 

ANALYSE PROCESSEN

Data analyse is op te delen in 4 types of delen: descriptive analytics, diagnostic analytics, predictive analytics en prescriptive analytics. In onderstaand model ziet u de opbouw van deze vier types en de bijbehorende vraagstelling. 

Veel van de huidige modellen zijn sterk gericht op predictive analytics, dus het voorspellen van events of resultaten. De vervolgstap van Prescriptive analytics wordt vaak nog niet gemaakt. Om de effectiviteit van uw modellen te optimaliseren en uw Business vraagstellingen zo duidelijk en efficiënt mogelijk te beantwoorden, is het van belang om ook deze stap waar mogelijk toe te voegen aan uw analyse proces. 

Voor de vraag “wat moeten we doen” wordt vaak de vraag “Wat kan er gaan gebeuren” gesteld. Hier ziet u dat de voorspellende analyse hand in hand gaat met de prescriptieve analyses. De voorspellende analyses laten met behulp van geavanceerde algoritmes zien wat er is gebeurd en tonen naast reeds bekende relaties ook niet voor de hand liggende patronen. Klanttevredenheid is hiervan een voorbeeld waarbij het veelal een combinatie is van ervaringen en acties in de tijd die aanleiding geven tot een bepaalde mate van (on-)tevredenheid . De voorspellende modellen geven de waarschijnlijkheid van uitkomsten of mogelijke scenario’s aan, maar ze zeggen niet welke acties u moet ondernemen op basis van die inzichten voor de beste resultaten. En wat is dan het “beste” resultaat; maximale klanttevredenheid onafhankelijk van de kosten? 

Om de resultaten van voorspellende analyses zo goed mogelijk te benutten, is het van belang om te investeren in prescriptieve analyses.

PRESCRIPTIVE ANALYTICS TOEVOEGEN AAN UW ANALYSE PROCES

Wat is Prescriptive Analyse nu precies? IBM geeft de volgende uitleg:

Prescriptieve analyses geven organisaties aanbevelingen over optimale acties om bedrijfsdoelstellingen zoals klanttevredenheid, winst en kostenbesparingen te bereiken. Prescriptieve analyseoplossingen gebruiken optimalisatietechnologie om complexe beslissingen op te lossen met miljoenen beslissingsvariabelen, beperkingen en afwegingen.”

IBM

Organisaties in verschillende sectoren gebruiken Prescriptieve Analyses voor een hele reeks van scenario’s. Hierbij kunt u denken aan planningsvraagstukken, operationele activiteiten zoals het bijhouden van resources en vraagstukken rondom het minimaliseren van risico’s. Prescriptieve Analyse geeft analisten en organisaties de mogelijkheid om de kloof te overbruggen tussen de verkregen inzichten en het beslissen welke acties het beoogde resultaat mogelijk maken. 

De kracht van Decision Optimization in uw analyse proces

Een veelgebruikt tool voor Prescriptieve Analyse is IBM Decision Optimization. IBM Decision Optimization maakt nauwkeurige besluitvorming voor complexe problemen mogelijk door tools te bieden voor het bouwen en implementeren van optimalisatiemodellen die wiskundige representaties zijn van zakelijke problemen. Krachtige optimalisatie-oplossers lossen deze modellen vervolgens op met behulp van geavanceerde algoritmen en geven aanbevelingen aan besluitvormers. 

Het resultaat? U kunt advies krijgen over de acties die u moet ondernemen om doelstellingen te bereiken, zoals het bereiken van kostenreductie, klanttevredenheid, winstgevendheid en operationele efficiëntie.

IBM biedt deze tool laagdrempelig aan in hun IBM Cloud omgeving. Met de Decision Optimization Modeling Assistant maken ze Prescriptieve Analyse toegankelijk voor de zakelijke gebruikers, die de zakelijke beperkingen en doelstellingen kennen en deze mogelijk rechtstreeks willen uitdrukken, en voor de datawetenschappers die al wat AI- en DS-modellen doen, maar misschien te weinig vaardigheden hebben om te beginnen met het formuleren van een DO-model.

Bent u benieuwd naar de mogelijkheden van Prescriptieve Analyse voor uw organisatie? Volg dan geheel vrijblijvend ons webinar waarin we stap voor stap door een optimalisatie model lopen met behulp van de DO Modeling Assistant. Wilt u liever advies over de mogelijkheden voor voorspellende en prescriptieve analyses binnen uw organisatie? Neem dan contact met ons op via info@dasc.nl

In dit artikel:

  • Analyse processen
  • Prescriptive analytics toevoegen aan uw analyse proces
  • De kracht van Decision Optimization

Wilt u graag reageren op dit blog? Dit blog is ook als artikel geplaatst op de DASC pagina op LinkedIn, u kunt hier uw reactie achterlaten.

Vernieuwingen in PS IMAGO PRO 8.0

PS IMAGO PRO 8.0

Rianne Hotting | 16 december 2021

PS IMAGO PRO 8.0 is 16 December 2021 uitgekomen, en bevat onder anderen SPSS Statistics 28.0.1. Hieronder zal ik kort uitleggen welke vernieuwingen u kunt verwachten binnen PS IMAGO PRO 8.0.  


WAT IS ER NIEUW?

NIEUWE ANALYTISCHE ENGINE – IBM SPSS STATISTICS 28.0.1 MET SERVICE PACK 1

META-ANALYSE – is gebaseerd op resultaten van ander wetenschappelijk onderzoek en zorgt voor synthese en combinatie ervan. Het kan een collectief overzicht opleveren van de omvang van het effect van en de redenen voor mogelijke variabiliteit. Het bevat onder andere heterogeniteitstesten, mate van effecten van het onderzoek, metaregressie en visualisaties, die kunnen worden gebruikt om de resultaten samen te vatten;

DEFAULT RIDGE REGRESSIE ALGORITHM – een regressiemethode voor complexe lineaire en niet-lineaire modellen waarmee de beste modelleringsmethode kan worden geselecteerd met behulp van kruisvalidatie van de algoritmetypen die door de gebruiker zijn aangegeven.

BIJGEWERKTE EN VERBETERDE STATISTISCHE PROCEDURES:

TEST POWER ANALYSE – speelt een sleutelrol bij het ontwerpen van een onderzoek en latere resultatenanalyse. In de meest recente versie maken alle vermogensanalyseprocedures het mogelijk om een reeks in te voeren in plaats van een enkele testvermogenswaarde. Het resultaat van de procedure is een tabel met testvermogenswaarden en optioneel een grafiek met testvermogenscurves. Daarnaast is er een mogelijkheid om de grootte van het effect te bepalen, als invoergegevens voor het schatten van de power van de test of de grootte van de steekproef;

QUOTIENT STATISTIEKEN – PRB-index (Price-Related Bias) en het betrouwbaarheidsinterval zijn toevoegt en mediaan-gecentreerde variantiefactor is verwijderd. De procedure voor quotiëntstatistieken maakt het mogelijk om eenvoudig een volledige reeks samenvattende statistieken te verkrijgen voor een beschrijving van de verhoudingen (quotiënt) van twee kwantitatieve variabelen.

ANDERE VERBETERINGEN IN ANALYTISCHE PROCEDURES:

  • Het selectieveld “Vergelijk eenvoudige hoofdeffecten” is toevoegt aan subvenster “Gemiddelde EM…” om de primaire effecten genest in andere factorniveaus te vergelijken;
  • Het aanbrengen van correcties in het gebied “Contrast wijzigen” inclusief een wijziging van de volgorde van de knoppen Referentiecategorieën (“Laatste” en “Eerste”) en het verwijderen van de knop Wijzigen. Daarom hoeft de selectie van referentiecategorieën niet te worden goedgekeurd;
  • Eenzijdige T-test toevoegt aan standaard berekende tweezijdige T-test.

WIJZIGINGEN IN DE UITVOEROBJECTEN:

RELATIONSHIP MAPS – hiermee kunnen alle verbindingen en invloeden tussen variabelen worden weergegeven met behulp van knooppunten en koppelingen. Knooppunten vertegenwoordigen variabelen en variabele categorieën, en associaties met de kracht van de impact tussen de knooppunten. Hoe groter de knooppunten en hoe dikker de verbindingslijnen, hoe sterker de associaties en de invloeden.

VERBETERDE WERK EFFICIËNTIE:

WORKBOOK MODUS – maakt het mogelijk data-analyse op een interactieve manier uit te voeren, dankzij de integratie van de functies van het venster Syntax en het venster Output. Mappen bevatten bepaalde alinea’s die uitvoerelementen bevatten (commando’s, tabellen, grafieken enz.). Alinea’s met opdrachten bieden volledige bewerkings- en startopties;

VERBETERDE SEARCH – is een uitbreiding van de bestaande functionaliteit. Het maakt de presentatie van gedetailleerde zoekresultaten mogelijk, en geeft bijvoorbeeld de exacte locatie aan van het dialoogvenster dat wordt gezocht. Bovendien worden, nadat de muiscursor op het ontvangen resultaat is geplaatst, richtlijnen gepresenteerd met betrekking tot de procedure die wordt doorzocht;

TABELBEWERKINGSOPTIES IN EEN ZIJPANEEL – een zijpaneel toevoegen aan het tabelbewerkingsvenster. Maakt het aanpassen van de tafellook gemakkelijker. Na dubbelklikken op een tabel en door naar het venster Tabeleditor gaan, wordt aan de rechterkant een zijpaneel weergegeven met opties voor het opmaken van rijen en kolommen, het bepalen van tekstattributen, het definiëren van randparameters, het bepalen van celopmaak en het definiëren van voetnoten en tabelopmerkingen;

HOOG INTERFACECONTRAST – toegevoegde hoogcontrastverwerking voor de programma-interface (afhankelijk van de voorafgaande selectie in het Windows- of macOS-systeem).

In dit artikel:

  • Nieuwe analytische engine – SPSS Statistics 28
  • Bijgewerkte en verbeterde procedures
  • Andere verbeteringen in analytische procedures
  • Wijzigingen in de output objecten
  • Verbeterde werk efficiëntie

Wilt u graag reageren op dit blog? Dit blog is ook als artikel geplaatst op de DASC pagina op LinkedIn, u kunt hier uw reactie achterlaten.

Binnen een paar minuten uw data klaar voor analyse met visueel programmeren en machine learning!

BINNEN EEN PAAR MINUTEN UW DATA KLAAR VOOR ANALYSE MET VISUEEL PROGRAMMEREN EN MACHINE LEARNING!

Rianne Hotting | 15 oktober 2021

SPSS Modeler helpt bedrijven om een snellere time-to-value te realiseren, de productiviteit van data science- en bedrijfsteams te verhogen en ervoor te zorgen dat aan de governance- en beveiligingsvereisten wordt voldaan gedurende de hele levenscyclus van datawetenschap.  


Uw organisatie kan SPSS Modeler gebruiken om analyses uit te voeren, ongeacht waar de gegevens zich bevinden – op locatie of in de cloud – de grootte van de gegevens, of het is gestructureerd of ongestructureerd. Dankzij de schaalbare client-server-architectuur hebben gebruikers toegang tot alles, van platte bestanden tot big data-omgevingen. Analyse wordt teruggeduwd naar de bron voor uitvoering, waardoor gegevensverplaatsing wordt geminimaliseerd en de prestaties worden verbeterd.

Met SPSS Modeler kunnen gebruikers met verschillende vaardigheden samenwerken en doelgerichte use-cases aanpakken om snel tot een beter resultaat te komen. Het biedt analysetechnieken die variëren van voorspellende tot prescriptieve analyses tot geavanceerde algoritmen, waaronder geautomatiseerde modellering, tekstanalyse, entiteiten analytics, sociale netwerkanalyse, beslissingsbeheer en optimalisatie. Een intuïtieve interface is ontworpen voor een breed scala aan gebruikers, van de niet-technische zakelijke gebruiker tot de analytische professional. 

De korte leercurve voor SPSS Modeler maakt het aantrekkelijk voor de beginnende en gevorderde gebruiker, zodat ze snel inzichten krijgen en bedrijfsresultaten realiseren.


Geen zin om het hele artikel te lezen? Bekijk hier de 6 hoogtepunten van SPSS Modeler!

  • Benut de waarde van uw data en vind patronen in meer gegevensbronnen, waaronder tekst, platte bestanden, databases, datawarehouses en Hadoop-distributies in een multi-cloudomgeving
  • Zet meer dan 40 kant-en-klare machine learning-algoritmen aan het werk om de ontwikkeling en het beheer van modellen te vergemakkelijken
  • Integreer met Apache Spark voor snelle in-memory computing
  • Optimaliseer de productiviteit van datawetenschaps- en bedrijfsteams met programmatische, visuele en andere vaardigheden
  • Gegevensanalyse versnellen met prestaties in de database en minimale gegevensverplaatsing met behulp van SQL pushback
  • Breid uw mogelijkheden uit met open source-technologieën zoals R, Python, Spark en Hadoop, met of zonder codering

Wat is Data Science en hoe kan SPSS Modeler hierbij helpen?

In de hyperconcurrerende zakelijke omgeving van vandaag finetunen marktleiders hun investeringen in Data Science om de bedrijfsresultaten te verbeteren. Hierbij kunt u denken aan de volgende voorbeelden van doelen voor data science projecten:

  • Werven en behouden van klanten
  • Operationele efficiëntie stimuleren
  • Minimaliseren en voorkomen van fraude
  • Optimalisatie van wervingsprocessen en vermindering van verloop 
  • Creëren van nieuwe bedrijfsmodellen

Data science is het proces waarbij analytische technieken worden gebruikt om patronen in gegevens te ontdekken en de resultaten toe te passen voor bedrijfswaarde. Beschrijvende analyse, voorspellende modellering, tekstanalyse, geospatiale analyse, entiteitsanalyse, beslissingsbeheer en optimalisatie worden gebruikt om patronen te identificeren en voorspellende modellen in te zetten in operationele systemen. Systemen en mensen kunnen deze patronen en modellen gebruiken om inzichten af ​​te leiden die hen in staat stellen om consequent de juiste beslissing te nemen op het moment van impact. Resultaten worden geoptimaliseerd op basis van de voorspellende intelligentie die verborgen zit in data van toenemende omvang en complexiteit.

SPSS Modeler is een krachtige tool voor visuele Data Science en Machine Learning die is ontworpen om voorspellende intelligentie te bieden bij beslissingen die worden genomen door individuen, groepen, systemen en uw onderneming. SPSS Modeler schaalt van desktop-implementaties tot integratie met operationele systemen om u een reeks geavanceerde algoritmen en technieken te bieden. Het toepassen van deze technieken op beslissingen kan resulteren in een snelle ROI en kan organisaties in staat stellen proactief en herhaaldelijk kosten te verlagen en tegelijkertijd de productiviteit te verhogen.

Toegang tot alle soorten data

Gegevens worden in een exponentieel tempo gegenereerd uit een groot aantal bronnen, waardoor nieuwe informatie en onbenutte kansen worden aangewakkerd voor die organisaties die deze kunnen benutten en de waarde ervan kunnen realiseren. 

Deze gegevens worden opgeslagen in verschillende systemen en formaten, dus het samenbrengen ervan kan een uitdaging zijn. De hoeveelheid gegevens is zo groot dat u deze niet handmatig kunt analyseren en ook niet in tabellen in rapporten kunt kijken om te zien waarom iets wel of niet gebeurt. Het analyseproces vormt nog een andere uitdaging vanwege een gebrek aan bekwame analisten die met de gegevens kunnen werken om de waarde ervan te extraheren.

Met SPSS Modeler kunnen jij en je organisatie de beschikbare data – zowel gestructureerd, ongestructureerd als ruimtelijk – gebruiken, en er waarde uit halen door onbenutte kansen en nieuwe informatie te ontdekken. Met nieuwe inzichten uit uw gegevens kunt u voorspellen wat er waarschijnlijk gaat gebeuren, proactief worden en de resultaten optimaliseren, in plaats van simpelweg te reageren zoals uw huidige situatie dit vereist.

Met SPSS Modeler kunt u een reeks analytische technieken gebruiken om toegang te krijgen tot gegevensbronnen zoals tekst, platte bestanden, databases, datawarehouses en Hadoop-distributies. Deze statistische technieken gebruiken historische gegevens om voorspellingen te doen over huidige omstandigheden of toekomstige gebeurtenissen. Ook inbegrepen zijn mogelijkheden voor gegevenstoegang, gegevensvoorbereiding, gegevensmodellering en interactieve visualisaties. Met geautomatiseerde procedures voor voorbereiding en modellering is het geschikt voor een breed scala aan analysemogelijkheden.

De intuïtieve grafische interface van SPSS Modeler stelt gebruikers in staat om elke stap van het data science-proces te visualiseren als onderdeel van een stream. Door interactie met deze stromen, kunnen analisten en zakelijke gebruikers goed samenwerken, wat zakelijke kennis en domeinexpertise toevoegt aan het datascienceproces. Gebruikers kunnen zich concentreren op het ontdekken van inzichten in plaats van op technische taken zoals het schrijven van code. Ze kunnen ook gedachtenanalyses uitvoeren en gegevens dieper onderzoeken, die alle aanvullende relaties kunnen blootleggen die zinvol zijn voor uw organisatie.

Data preparatie- en manipulatie

Het voorbereiden van gegevens voor analyse is een belangrijke maar tijdrovende stap in de analyse. SPSS Modeler versnelt gegevensvoorbereiding om het proces te vergemakkelijken en om u te helpen ervoor te zorgen dat uw gegevens de beste indeling hebben voor analyse. De geautomatiseerde taken omvatten het analyseren van gegevens en het identificeren van fixes, het screenen van velden, het afleiden van nieuwe attributen waar nodig en het helpen verbeteren van de prestaties door middel van intelligente screeningtechnieken.

SPSS Modeler biedt een grote hoeveelheid manieren om gegevens te manipuleren en voor te bereiden voor analyse op record- of veld- (of variabele) niveau. Om ervoor te zorgen dat uw gegevens de optimale indeling hebben voor het specifieke type vereiste analyse, gebruikt SPSS Modeler deze methoden:

  • Recordbewerkingen: Met Select-, Sample- en Distinct nodes kunt u specifieke gegevensrijen kiezen. U kunt nodes samenvoegen en toevoegen om gegevens samen te voegen door kolommen of rijen toe te voegen aan een dataset. Aggregate en recentheid, frequentie, monetaire nodes vatten records samen in een enkele rij. Een Balance-node past de verhoudingen van records in onevenwichtige gegevens aan en een Sorteerknooppunt herordenen op basis van waarde. De Space Time Box-node creëert geospatiale en op tijd gebaseerde gegevens voor records.
  • Variabelen bewerkingen: Een Type-node specificeert metagegevens en eigenschappen van een dataset, en de Filter node negeert velden. De Derive-node maakt nieuwe velden aan en een Filler-knooppunt kan bestaande veldwaarden vervangen. Gegevens kunnen worden geherstructureerd met de nodes Set to Flag, Om te helpen bij het modelleren, kan de node Partitie de gegevens splitsen en kunnen de nodes Geschiedenis en Tijdsintervallen extra velden maken. De node Veldherschikking definieert de weergavevolgorde om bepaalde velden gemakkelijker te kunnen bekijken.

Wij merken dat er drie groepen te onderscheiden zijn in het updateproces van de software van SPSS:

Het analyse bereik vergroten met een reeks technieken

Analytische technieken blijven zich ontwikkelen en bieden analisten een overvloed aan opties om de problemen die voor hen liggen aan te pakken.  Met SPSS Modeler kunnen uw analisten hun bedrijfsproblemen oplossen met een oplossing die is ontworpen voor eenvoudige beschrijvende analyse, de meest complexe optimalisatieproblemen en alles daartussenin. 

SPSS Modeler biedt mogelijkheden die verder gaan dan de standaard analytische vereisten van hedendaagse analisten en data scientisten. Een reeks van meer dan 40 modellen, visuele drag-and-drop-modellering, ingebouwde gegevensvoorbereiding, tekstanalyse, entiteitsanalyse, sociale netwerkanalyse en de mogelijkheid om modellen op parallelle processen te bouwen, kunnen u allemaal helpen de meest geavanceerde problemen aan te pakken.

Visuele Drag-and-drop modellering voor Data Science

Met de drag-and-drop modelleringsfuncties van SPSS Modeler kunnen ook niet-analisten snel nauwkeurige modellen produceren zonder gespecialiseerde vaardigheden. Bovendien stellen geavanceerde voorspellende modelleringscapaciteiten professionele analisten en data scientisten in staat om de meest geavanceerde streams te creëren.

Met visuele modellering kunt u meerdere modellerings benaderingen vergelijken. Door specifieke opties voor elk modeltype in te stellen (of de standaardinstellingen te gebruiken), kunt u een groot aantal modelcombinaties en opties verkennen. De gegenereerde modellen worden vervolgens gerangschikt op basis van de gespecificeerde maatregel, waarbij de beste voor het scoren of verdere analyse wordt bewaard.

Modellen en algoritmes

SPSS Modeler biedt een scala aan modelleringstechnieken, waaronder de volgende algoritmen:

  • Classificatie-algoritmen: Maak voorspellingen of prognoses op basis van historische data met technieken. Voorbeelden zijn beslissingsbomen, neurale netwerken, logistische regressie, gegeneraliseerde lineaire gemengde modellen en meer. 
  • Segmentatie-algoritmen: Groepeer mensen of detecteer ongebruikelijke patronen met technieken als automatische clustering, anomaliedetectie en clustering van neurale netwerken. Gebruik automatische classificatie om meerdere algoritmen in één stap toe te passen en neem het giswerk weg bij het selecteren van de juiste techniek.
  • Associatie-algoritmen: Ontdek associaties, links of sequenties met Apriori, CARMA en sequentiële associatie.
  • Tijdreeksen en prognoses: Genereer prognoses voor een of meer reeksen in de loop van de tijd met statistische modelleringstechnieken. Met behulp van temporele causale modellering kun je causale verbanden ontdekken tussen een groot aantal reeksen.
  • Uitbreidbaarheid met programmeertalen R en Python: Pas transformaties toe, gebruik scripts om tekst en grafische uitvoer te analyseren, samen te vatten of te produceren met R. Met de Custom Dialog Builder kunt u R- en Python- en Python-code delen en hergebruiken met degenen die ervoor kiezen om geen programmering te gebruiken voor analyse.
  • Monte Carlo simulatie: Houd rekening met onzekerheid in input voor voorspellende modellen. Modelleer onzekere invoer op basis van historische gegevens of met kansverdelingen om gesimuleerde waarden te genereren en gebruik deze vervolgens in het voorspellende model om een ​​uitkomst te genereren. Het resultaat is een verdeling van uitkomsten die antwoorden kunnen geven op vragen die gebaseerd zijn op realistisch gegenereerde data.
  • Entiteitsanalyse: Identificeer relaties en verbeter de samenhang en consistentie van huidige gegevens door identiteitsconflicten in de records zelf op te lossen. Het identificeren van deze relaties kan van cruciaal belang zijn op een aantal gebieden, waaronder klantrelatiebeheer, fraudedetectie, antiwitwaspraktijken en beveiliging.
Geospatiale analyse

Met SPSS Modeler kun je de relatie van gegevenselementen aan een locatie koppelen en een geografische ruimtelijke analyse van uw gegevens uitvoeren om inzichten te onthullen die niet zichtbaar zouden zijn in grafieken of tabellen. Met ruimtelijke analyse kunt u eenvoudig geospatiale gegevens opnemen met behulp van ESRI-vormbestanden. Door zowel niet-ruimtelijke als ruimtelijke gegevens te analyseren, wordt de algehele nauwkeurigheid van het model verbeterd en krijgt u diepere inzichten in mensen en gebeurtenissen.

Voeg een nieuwe dimensie toe aan uw analyse door associatieregels te ontdekken tussen ruimtelijke en niet-ruimtelijke attributen. Met behulp van ruimtelijke temporele voorspelling kunt u lineaire modellen gebruiken voor metingen op locaties in de 2D-ruimte, zodat u gemakkelijk hete gebieden kunt voorspellen en hoe die gebieden in de loop van de tijd kunnen veranderen. U kunt deze technologie toepassen om geospatiale gegevens te ontginnen op gebieden zoals analyse van misdaadpatronen, epidemische surveillance, gebouwbeheer en analyse van brancheprestaties.

Tekstanalyse

De interactieve, visuele omgeving van SPSS Modeler maakt gebruik van geavanceerde taaltechnologieën en Natural Language Processing om ongestructureerde tekstgegevens snel te verwerken. Uit deze tekst worden de belangrijkste concepten geëxtraheerd en geordend. Met de aanpasbare branche specifieke tekstanalysepakketten kunt u bovendien relevante termen en zinnen analyseren naar acroniemen, emoties en vaktaal in de juiste context. 

Interactieve grafieken helpen u tekstgegevens en patronen te verkennen en weer te geven voor directe analyse. U kunt hiërarchische categoriseringsstructuren maken en deze opnemen als input voor een voorspellend model om betere en meer gerichte beslissingen en resultaten te verkrijgen. Vooraf gedefinieerde categorieën, zoals hiërarchieën, annotaties en trefwoorddescriptors, kunnen worden geïmporteerd om initiële ongestructureerde gegevens te categoriseren, zodat u concepten logischer en gedetailleerder kunt ordenen.

Voldoe aan alle behoeften met flexibele modelimplementatie

De inzet van analytics in uw organisatie is afhankelijk van veel omgevingsfactoren. Dergelijke factoren zijn onder meer de zakelijke problemen die moeten worden aangepakt, uw keuze van besturingssystemen en platforms en de andere technologieën en gegevensbronnen in uw infrastructuur. Technologie, en met name software, moet flexibel genoeg zijn om verschillende permutaties aan te kunnen en toch de verwachte prestaties en resultaten te bieden.

De SPSS Modeler-architectuur is een open architectuur die een reeks platforms en talen ondersteunt, waaronder R en Python. U kunt uw oplossing lokaal, vanuit de cloud of zelfs in een hybride cloudbenadering implementeren, en deze vervolgens vol vertrouwen gebruiken met uw bestaande systemen om de prestaties te optimaliseren en uw zakelijke problemen aan te pakken. Deze flexibele implementatie overbrugt de kloof tussen analyse en actie door mensen en processen volgens een schema of op aanvraag resultaten te bieden. 

SPSS Modeler-streams kunnen worden ingezet voor modelvernieuwing of geautomatiseerde taakplanning. Ontwikkelaars kunnen SPSS Modeler-streams insluiten in Java-applicaties met behulp van de embedded predictive modeling Java API. 

Optimalisatie Data Science projecten

Zelfs de meest toegewijde organisatie kan het zich niet veroorloven om elke klant naar voren te halen, en evenmin kan een verzekeraar elke claim onderzoeken. Bedrijven opereren onder reële beperkingen, onderhevig aan limieten voor beschikbaar personeel, apparatuur en investeringen. Optimalisatie stelt organisaties in staat om het beste uit schaarse middelen te halen door de oplossing te identificeren die het beste aansluit bij een specifiek doel. Voorbeelden hiervan zijn het maximaliseren van de opbrengst van een marketingcampagne of het minimaliseren van het risico op fraude of churn. Optimalisatie kan op aanvraag worden gebruikt, bijvoorbeeld voor een persoon om de beste aanbieding voor die persoon te bepalen, of in batch om aanbiedingen toe te wijzen aan alle in aanmerking komende klanten.

Uitvoering en planning van het Data Science project

SPSS Modeler bevat mogelijkheden om automatisering te gebruiken om uw resultaten consistenter te maken. Een grotere consistentie versterkt het vertrouwen van mensen in analyses, omdat het management de zakelijke omgevingen waar analytische processen plaatsvinden efficiënt kan besturen. Deze governance helpt ervoor te zorgen dat aan alle interne en externe procedurele vereisten wordt voldaan.

Met SPSS Modeler kunnen analisten flexibele, herhaalbare analytische processen construeren die kunnen worden geoperationaliseerd, dat wil zeggen op het juiste moment gestart en geïntegreerd met andere bedrijfsprocessen. Vooraf gedefinieerde modelbeheerprocessen helpen modellen relevant en nauwkeurig te blijven.

Database mogelijkheden

SPSS Modeler biedt een aantal mogelijkheden om gegevensverplaatsing te minimaliseren en analyses naar de database te pushen, zoals:

  • SQL-pushback maakt transformatie en voorbereiding van gegevens in de database mogelijk zonder de noodzaak om SQL te schrijven of te programmeren. Het resultaat is een aanzienlijke verbetering van de analytische prestaties.
  • Databasefuncties. SPSS Modeler kan gebruik maken van bijna alle door de gebruiker gedefinieerde functies, database-aggregatie en windowed-aggregatiefuncties die door een database worden geleverd. Deze worden weergegeven door de SPSS Modeler-werkbank om de beschikbare native functionaliteit uit te breiden en ervoor te zorgen:
  • SQL-pushback analyse in de database. SPSS Modeler Server ondersteunt integratie met de analysemogelijkheden, modelleringstools en database-native algoritmen die beschikbaar zijn. Je kunt modellen bouwen, scoren en opslaan in de database, allemaal vanuit de SPSS Modeler-werkbank.
Conclusie

SPSS Modeler biedt een data science platform wat u kan ondersteunen bij alle fases van een data science project. Het vergemakkelijkt het samenwerken tussen diverse specialisten en werkt naadloos samen met database systemen. Door aan de slag te gaan met SPSS Modeler bespaart u veel tijd, heeft u uitstekend versiebeheer en bent u in staat om gebruik te maken van alle kennis binnen uw organisatie.

Bent u benieuwd geworden naar SPSS Modeler en wilt u graag meer informatie ontvangen of een demo krijgen van de software? Neem dan contact met ons op via onderstaande buttons.

In dit artikel:

  • Hoogtepunten van SPSS Modeler
  • Wat is Data Science ?
  • Toegang tot data
  • Data preparatie en manipulatie
  • Analyse bereik vergroten
  • Visuele Drag-and-drop modellering
  • Modellen en algoritmes
  • Geospatiale analyse en tekstanalyse
  • Flexibele modelimplementatie
  • Modeloptimalisatie
  • Uitvoering en planning van het Data Science project
  • Database pushback

Wilt u graag reageren op dit blog? Dit blog is ook als artikel geplaatst op de DASC pagina op LinkedIn, u kunt hier uw reactie achterlaten.

De voordelen van overstappen naar de nieuwste versie van SPSS Statistics

DE VOORDELEN VAN HET OVERSTAPPEN NAAR DE NIEUWSTE VERSIE VAN SPSS STATISTICS

Rianne Hotting | 27 september 2021

Eerder dit jaar is IBM SPSS Statistics 28 (SPSS) uitgekomen en wij hopen dat u inmiddels met deze versie werkt. Mocht dit nog niet het geval zijn, en werkt u nog met een oudere of niet ondersteunde versie van SPSS, dan geef ik u graag een aantal voordelen om deze overstap alsnog te overwegen. 


Wij merken dat er drie groepen te onderscheiden zijn in het updateproces van de software van SPSS:

  • De eerste groep update zo snel mogelijk na het uitkomen van een nieuwe versie. Dit vanwege IT-beleid of omdat ze de nieuwste, meest ontwikkelde versie van de SPSS willen gebruiken. 
  • De tweede groep wacht voor een langere periode omdat ze het proces redelijk tijdrovend vinden en ze tevreden zijn met een werkende ondersteunde versie, ook al is dit niet de meest recente versie 
  • De derde groep update heeft al lange tijd de software niet geüpdatet, en werkt nog met een versie van SPSS die (bijna) niet meer ondersteund wordt. Dit kan zijn omdat ze het support contract hebben opgezegd, of omdat ze zich niet bewust zijn van de voordelen van het upgraden naar een nieuwere versie van SPSS. 

Wanneer u of uw organisatie bij de laatste groep hoort en nog werkt met een lagere versie dan SPSS V25, is het voor u belangrijk om een update te overwegen naar, bij voorkeur, de nieuwste versie van SPSS. Ik zal u hieronder een aantal redenen beschrijven waarom het upgraden naar SPSS V28 de moeite waard kan zijn. 

Profiteer van de nieuwste functionaliteiten en technieken

Gebruikers van IBM-software geven hun wensen en ervaringen door aan IBM en/of haar partners. Deze informatie wordt door IBM gebruikt bij het maken van een nieuwe versie van de software. Bij elke nieuwe versie van SPSS horen dus nieuwe functies en analysetechnieken die door gebruikers zijn gevraagd, en waarbij problemen worden opgelost die u mogelijk zelf ook ervaart.

De nieuwste versie heeft dus de meest geavanceerde tools om uw gegevens te analyseren en is ook ontwikkeld om op de nieuwste besturingssystemen te draaien, met als gevolg dat de software sneller en efficiënter wordt en uw analyses dus sneller kunnen worden uitgevoerd in vergelijking met de oudere versies. 

Als u benieuwd bent naar de specifieke vernieuwingen in SPSS V28 kunt u hier de informatie vinden over de nieuwste functionaliteiten

Het gevaar van een SPSS versie die niet meer in support is

Als SPSS van cruciaal belang is voor uw organisatie, biedt het draaien van de nieuwste versie gemoedsrust, of in ieder geval een versie die nog door IBM wordt ondersteund (op dit moment SPSS V25 of hoger), mocht er iets onverwachts gebeuren.

Dit kan variëren van eenvoudige computercrashes waarbij de licentie naar een nieuwe machine moet worden verplaatst, tot de software die niet meer werkt vanwege Windows/MacOS-updates. Deze problemen kunnen complex zijn om op te lossen zonder een ondersteuningscontract of een ondersteunde versie van SPSS.

Wanneer u een versie gebruikt die niet meer ondersteund wordt, of wanneer u geen actieve support meer heeft op uw software, heeft IBM een aankoop referentienummer of de originele code nodig die gebruikt is om de software te activeren. Wij komen regelmatig tegen dat deze gegevens niet meer terug te vinden zijn omdat de oorspronkelijke koper de organisatie heeft verlaten of omdat de gegevens niet goed zijn opgeslagen of overgedragen. Het gevolg hiervan is dat IBM geen actie meer kan ondernemen en u uw software helaas verliest, u zult dan opnieuw een aanschaf van SPSS moeten doen. 

Door de software goed up-to-date te houden en regelmatig de nieuwste versie te installeren voorkomt u dat u te maken krijgt met bovenstaande problemen. Wanneer u toch in de problemen komt is het makkelijker om de problemen op te lossen bij een versie die in support is bij IBM, zowel IBM als DASC zullen dan ondersteuning bieden totdat het probleem opgelost is. 

Het nut van het installeren van Fixpacks

Naast de gebruikelijke versie updates van SPSS worden er regelmatig zogeheten fixpacks uitgebracht door IBM. Dit zijn kleine updatebestanden die een probleem binnen een bestaande versie van SPSS oplossen. Vaak worden er meerdere problemen tegelijk opgelost binnen één fixpack, en gebeurt dit voor meerdere versies tegelijk. Wanneer u ervoor zorgt dat ook de fixpacks worden geïnstalleerd, kunt u problemen binnen uw systeem voor zijn en ervoor zorgen dat uw software goed blijft werken.  Het gebeurt regelmatig dat een klant een probleem ervaart wat al in een eerdere fixpack is opgelost, maar deze nog niet geïnstalleerd was binnen het systeem van de klant. Hierdoor heeft de SPSS gebruiker tijdelijk geen gebruik kunnen maken van de software, wat de nodige gevolgen kan hebben. 

IT vereisten waaraan voldaan moet worden

IT wil meestal dat software in het beste ondersteuningsprogramma van de ontwikkelaar zit. Als u geen ondersteunde versie van SPSS gebruikt, ontvangt u geen ondersteuning van IBM, zelfs niet als u een lopend supportcontract heeft afgesloten.

Er kunnen problemen ontstaan ​​bij het uitvoeren van oudere versies, zoals een incompatibele ODBC-stuurprogrammaverbinding en updates van de besturingssoftware. Deze problemen hebben geen patch/fix-pack omdat IBM ze overbodig heeft gemaakt en er alleen voor zorgt dat de nieuwste versie wordt uitgevoerd met de steeds veranderende IT-setups.IT-teams hebben daarnaast te maken met de extra complexiteit van veel mensen die tegenwoordig vanuit huis werken. Dit verhoogt de toch al zware taak van internet-/netwerkbeveiliging en alleen de nieuwste versies van software kunnen worden bijgewerkt/aangepast aan de nieuwe beveiligingsbedreigingen.

Concurrent licenties vragen om regelmatige updates

Als laatste moedigen wij organisaties die concurrent licenties gebruiken aan om altijd de nieuwste versie te gebruiken, vanwege het inherente gebruik van netwerken en databaseverbindingen. De licentiebeheerder zelf wordt bijgewerkt met elke versie met wijzigingen in de manier waarop IT-systemen verschillende verbindingen nodig hebben om de licentie op te halen. Vanwege de gevoeligheid van bepaalde IT-systemen is het sterk aan te raden om bij concurrent licenties ervoor te zorgen dat er gebruik wordt gemaakt van de meest recente licentiemanager en software. 

Optimaal gebruik maken van de DASC Support services

De meest simpele manier om ervoor te zorgen dat u altijd de meest recente versie van SPSS tot uw beschikking heeft, is door het afsluiten van een onderhoudscontract bij DASC. Hiermee heeft u recht op alle services van IBM, zoals de beschikking over de meest recente software en fixpacks voor SPSS en algemene Engelstalige support voor technische vragen, maar ook over alle services van DASC. 

Wanneer er een nieuwe versie van SPSS beschikbaar komt, laten wij dit via onze nieuwsbrief aan al onze klanten weten. 

  • Wij beschrijven alle nieuwe functionaliteiten en technieken;
  • Geven speciale webinars waarin wij de gebruikers uitleggen wat de verschillen zijn;
  • Voor de IT afdeling stellen wij de nieuwste installatiebestanden beschikbaar;
  • Ondersteuning bij vragen rondom de upgrade. 

Het up-to-date houden van uw software is met een support contract dus makkelijk voor elkaar te krijgen. Er zijn dan geen aanvullende kosten verbonden aan nieuwe versies of fixpacks, en u heeft altijd de beschikking over een Nederlandstalig supportteam voor al uw vragen!

Conclusie

Het is onze aanbeveling dat klanten een ondersteunde versie van SPSS in gebruik hebben, bij voorkeur de meest recente versie. In de praktijk betekent dit dat u, met een actief supportcontract, ervoor zorgt dat uw software blijft draaien, zelfs als er wijzigingen plaatsvinden binnen besturingssystemen of beveiligingen. Als gebruiker werkt u daarnaast het snelst en effectiefst met de nieuwste versies, wat u veel tijd en geld kan besparen. 

We zijn altijd bereid om upgradestrategieën met u te bespreken. We weten dat om tijd te besparen, eerst tijd een tijdsinvestering wordt gevraagd van onze klanten, dus ons supportteam is zeer actief betrokken om het proces zo eenvoudig mogelijk te maken.

Wilt u graag reageren op dit blog? Dit blog is ook als artikel geplaatst op de DASC pagina op LinkedIn, u kunt hier uw reactie achterlaten.

De grote invloed die Artificiële Intelligentie op uw marketing resultaten kan hebben

DE GROTE INVLOED DIE ARTIFICIËLE INTELLIGENTIE OP UW MARKETING RESULTATEN KAN HEBBEN

Rianne Hotting | 25 november 2020

Marketing als vakgebied is non-stop in ontwikkeling, zowel bij Business-to-Business als Business-to-Customer. Dit komt onder meer door de enorme groei aan mogelijkheden die voortkomen uit technologische innovaties. Een belangrijk onderdeel van deze innovaties is Artificiële Intelligentie, die een steeds grotere rol speelt bij het bepalen van de marketing resultaten. Maar hoe groot is die invloed? Daar gaan we in deze blog verder op in.


AI als onderdeel van het dagelijks leven

Artificiële Intelligentie (AI) maakt een steeds groter deel uit van ons dagelijks leven, maar hier zijn we ons vaak niet van bewust. Wereldwijd gezien gebruikt 63 procent van de consumenten AI zonder het zelf door te hebben.We zijn gemiddeld 6 uur en 42 minuten ‘online’. Tijdens de momenten dat we online zijn, zoeken we antwoorden en oplossingen via Google, kijken we video’s of zitten we op social media. De aanbevelingen van Google, voorgestelde nummers van Spotify, aanbevolen video’s van YouTube of Netflix, iemand opbellen via Siri… Allemaal kunstmatige intelligentie, die je gewoon in je broekzak hebt zitten! Wanneer ik naar mijzelf kijk kan ik alleen maar zeggen dat ik blij ben met het bestaan van AI, omdat dit mijn leven aanzienlijk makkelijker maakt en het mij helpt met het besparen van tijd. AI helpt ons dus om dingen gemakkelijker, sneller en efficiënter te kunnen doen.

Gezien de tijd die uw consumenten online spenderen, wordt het interessant om te kijken of u de aandacht van uw consumenten kan trekken op de momenten dat ze online zijn. Hierbij kan gedacht worden aan gepersonaliseerde advertenties of het aanleveren van de juiste content op het moment dat de consument hierom vraagt. Daarnaast genereren alle mensen wanneer ze online zijn een enorme hoeveelheid data, die veel relevante en interessante informatie kan bevatten voor uw organisatie. AI komt al snel om de hoek kijken wanneer men gaat nadenken over het optimaal benutten van de beschikbare data en de mogelijkheden om de consument op het juiste moment te bereiken, het liefst meteen hoge kans op verkoopsucces.


IN THE ERA OF BIG DATA, WE HAVE THE NEED TO MINE ALL OF THE INFORMATION, AND HUMANS CAN NO LONGER DO IT ALONE”

– Mark Simpson, IBM


Analyseer je marketingstrategie

Om je marketingstrategie te bepalen en vervolgstappen te kunnen plannen gebruik je data en kennis die je hebt over jouw ideale klant. Hierbij onderzoek je de buyer persona’s, de buyer journey (afgelegde klantreis) en analyseer je voorgaande campagnes. Je wilt natuurlijk je concurrenten voor zijn en de vragen en problemen van potentiele klanten oplossen voor ze bij de concurrent uitkomen. Mensen zijn alleen niet in staat om op zo’n hoge snelheid data te verwerken, dat het mogelijk is om alle ontwikkelingen op de markt bij te benen. We hebben als mens veel tijd nodig om de data te verwerken, te begrijpen en te analyseren. Gelukkig biedt AI hier uitkomst. Door verschillende algoritmes wordt het steeds beter mogelijk om de snelheid van het verzamelen, verwerken en het analyseren van de data dermate hoog te krijgen dat je goed kan meelopen met de markt en op tijd op de hoogte bent van potentiele klanten, hun uitdagingen en hun vragen.


AI als marketingtool

Waarschijnlijk heeft u al deze informatie echter al vaak genoeg gehoord en heeft u zich net als ik afgevraagd wat AI precies is en welk onderdeel van AI u kan helpen bij het optimaliseren van marketing resultaten. Wanneer u googelt op AI komt u een wildgroei tegen aan varianten, definities en synoniemen van Artificiële Intelligentie. Maar welke varianten van AI kunt u nu inzetten voor het optimaliseren van uw marketing resultaten? Hier is geen eenvoudig antwoord op helaas. Er zijn ontelbaar veel verschillende opties, die bedrijfsafhankelijk beter of slechter toepasbaar zijn. Gelukkig zijn er wel een aantal standaardopties die op diverse manieren geïmplementeerd kunnen worden, zodat het volledig aansluit op uw wensen. U kunt kunstmatige intelligentie zien als een gereedschapskist waarin hamers, zagen of beitels zitten om het in de praktijk te brengen. Om het overzichtelijk te houden zal ik een paar meest gebruikte tools uitleggen die vrijwel in elk type organisatie gebruikt kunnen worden.

  • De eerste optie is voorspellen met behulp van AI, ook wel predictive modeling genoemd. Deze technologie kan op basis van veel data en rekenkracht voorspellingen doen over toekomstige gelijksoortige situaties. Voorbeelden zijn gepersonaliseerde advertenties op basis van surfgedrag, de tijdlijn op basis van het gedrag op Facebook of systemen waarmee voorspelt wordt of iemand zijn rekeningen wel op tijd kan betalen. AI kan worden gebruikt om miljoenen posts op sociale media te verwerken en subtiele overeenkomsten te vinden in de gebruikte tekst, afbeeldingen en hashtags. Een subtiele overeenkomst kan duiden op een opkomende trend. We hebben nog steeds door mensen aangestuurd onderzoek nodig om te interpreteren wat de overeenkomsten betekenen in de context van de branche, maar de belofte is zeker fascinerend.
  • De tweede optie is het gebruik van chatbots. Chatbots of virtuele assistenten combineren meerdere AI-technologieën om uit een dataverzameling gebruikersvragen te beantwoorden of vragen te stellen om zo betere informatie te bieden. Hierdoor kunt u snel de vragen van uw potentiele klant beantwoorden er ervoor zorgen dat deze niet wegloopt naar uw concurrent door te lange wachttijden.
  • Daarnaast is de monitoring van sociale media erg belangrijk. En hoewel er tools beschikbaar zijn om het gemakkelijker te maken, heeft AI de mogelijkheid om het naar een hoger niveau te tillen. Het is nuttig om de inhoud van concurrenten, recensies en op welke inhoud te reageren, te volgen. Er zullen veel kansen liggen in reputatiemanagement en crisismonitoring met behulp van AI.

Schrijf u in voor het live webinar Marketing & AI

Dit korte overzicht is bij lange na niet de samenvatting van alle mogelijkheden van AI binnen de marketing branche. Maar het geeft wel een overzicht van wat u kunt verwachten van de toegevoegde waarde van AI ten opzichte van het verbeteren van uw marketing resultaten. Er zijn veel opties om AI in te zetten en even zoveel opties aan services, software leveranciers enzovoort. Om u alvast op weg te helpen met het starten van het gebruik van AI binnen uw marketingstrategieën, heb ik onder dit blog alvast een gratis trial klaar gezet voor de Cloud Pack for Data van IBM. Dit platform biedt een groot aantal services aan voor uiteenlopende acties op uw data, zoals bijvoorbeeld voorspellende modellen, auto-AI en chatbots. Hierdoor kan u makkelijk van start gaan en de uitgebreide mogelijkheden van AI gaan verkennen

Wilt u graag meer informatie over de toegevoegde waarde van AI voor uw marketing(strategie)? Schrijf u dan hieronder in de voor de webinar. Met een demo in 45 minuten laten we zien hoe u een model kunt maken om uw marketingresultaten te voorspellen. Hierbij doorlopen we de verschillende stappen van CRISP-DM. Dit doen we in IBM Cloud Pak for Data waarin we verschillende technieken toepassen, zoals AutoAI en SPSS Modeler.


Waarom AI customer feedback waardevoller maakt!

WAAROM AI CUSTOMER FEEDBACK WAARDEVOLLER MAAKT!

Rianne Hotting | 25 november 2020

In de afgelopen jaren is artificiële intelligentie (AI) een steeds grotere rol gaan spelen binnen onze levens en bedrijfsprocessen. Bedrijven uit steeds meer sectoren proberen de kracht van AI in te zetten om de contacten met hun klanten te verbeteren. Hierbij kan gedacht worden aan het voorspellen van de verkoop tot aan het inzetten van chatbots om de klant zo goed mogelijk van dienst te kunnen zijn.

AI zorgt voor gemak, snelheid en efficiëntie

Artificiële Intelligentie (AI) maakt een steeds groter deel uit van ons dagelijks leven, maar hier zijn we ons vaak niet van bewust. Wereldwijd gezien gebruikt 63% van de consumenten AI zonder het zelf door te hebben. We zijn gemiddeld 6 uur en 42 minuten ‘online’. Tijdens de momenten dat we online zijn, zoeken we antwoorden en oplossingen via Google, kijken we video’s of zitten we op social media. De aanbevelingen van Google, voorgestelde nummers van Spotify, aanbevolen video’s van YouTube of Netflix, iemand opbellen via Siri… Allemaal kunstmatige intelligentie, die je gewoon in je broekzak hebt zitten! Wanneer ik naar mijzelf kijk kan ik alleen maar zeggen dat ik blij ben met het bestaan van AI, omdat dit mijn leven aanzienlijk makkelijker maakt en het mij helpt met het besparen van tijd. AI helpt ons dus om dingen gemakkelijker, sneller en efficiënter te kunnen doen.

De historie van Artificial intelligence

Maar wat zorgt er nu voor dat Artificiële Intelligentie zo’n grote rol heeft gekregen binnen ons leven? Om deze vraag te beantwoorden zullen we eerst kort moeten kijken naar de ontwikkelingen die Artificiële Intelligentie de afgelopen tijd heeft ondergaan.

Artificiële Intelligentie bestaat eigenlijk al heel lang, officieel is 1956 het geboortejaar van kunstmatige intelligentie, toen tijdens een conferentie van John McCarthy de term Artificiële Intelligentie werd bedacht. De echte ontwikkeling van AI en het gebruik hiervan liet echter nog wel op zich wachten. Hoewel de technologie wel was bedacht, ontbrak het aan de juiste middelen en investeringen om AI verder te ontwikkelen. Het begrip AI kwam met name voor in films en muziek, maar ontwikkeling bleef uit. Toen er betere technologie en meer investeringen vrij kwamen, kwam ook de ontwikkeling van AI weer op gang.


Mens en machine werken samen
In de 20ste eeuw was er sprake van angst dat kunstmatige intelligentie zou leiden tot grote werkeloosheid, omdat mensen vervangen zouden worden voor robots.

Op dit moment is bij sommige mensen nog steeds die angst aanwezig, maar we zijn steeds meer tot het besef gekomen dat mensen en machines goed samen kunnen werken en dat het gebruik van AI kan leiden tot grote voordelen en gemakken voor de mens. AI helpt bij het bij het oplossen van moeilijke en uitdagende problemen. Door de menselijke intelligentie te combineren met de rekenkracht en opslagtechnieken van een computer ontstaat er een enorm sterke combinatie, die voor vrijwel iedereen gemakken en voordelen met zich meebrengt.

Maar wat kunt u als organisatie nu doen met deze technologie? En hoe kunt u ervoor zorgen dat ook uw klanten hier de positieve aspecten van ervaren? Daarover zal ik u meer vertellen.


Customer Service

Wanneer je denkt aan je contacten met je klanten, denk je waarschijnlijk aan de customer service. Bij Customer Service is het enorm relevant om zo snel mogelijk te voldoen aan de vragen en behoeftes van uw klanten. Wanneer de klant zich gehoord voelt en snel reactie krijgt op zijn vragen is de kans groot dat hij/zij zich prettig voelt bij uw bedrijf en hierdoor ook klant zal blijven, en zelfs mogelijk uw bedrijf gaat aanraden bij zijn of haar omgeving.

Voor een goede customer service zijn snelheid van reageren en een gepersonaliseerde benadering dus van groot belang. Uw Customer Service zal dit daarom dan ook ongetwijfeld met alle macht proberen. Er zijn echter uitdagingen waar elk Customer Service Team tegenaan loopt. Hierbij kan je denken aan enorme hoeveelheden data (bijvoorbeeld vragen) die langs komen, en die allemaal beantwoord moeten worden. Hierdoor kan de uitdaging groot worden om al uw klanten snel antwoord te geven op de vragen die ze stellen, een mens heeft maar een beperkte tijd per dag en kan deze tijd ook maar aan een x aantal vragen besteden. Hier kan AI om de hoek komen kijken, AI kan uw personeel ontlasten terwijl de klanten snel antwoord krijgen en aan de behoeftes kan worden voldaan.

Kostenbesparing en beter klantcontact
Zoals ik al eerder uitlegde spelen de snelheid van reageren en een gepersonaliseerde benadering een grote rol in uw klantcontacten. AI voorziet in beiden door grote hoeveelheden data te verwerken en 24/7 te vertalen naar intuïtieve antwoorden via een chatbot of suggesties. Bij complexe vragen blijft persoonlijk contact echter nodig. Voor het managen en stroomlijnen van klantencontact kiezen bedrijven daarbij regelmatig voor een callcenter. AI biedt ook hiervoor tal van toepassingen die voor kostenbesparing en beter klantcontact zorgen: het omzetten van telefoongesprekken naar tekst, het analyseren van sentiment en context en het bieden van informatie via zelflerende chatbots en persoonlijke suggesties zijn de belangrijke onderdelen die hieraan bijdragen. Medewerkers hoeven pas in actie te komen wanneer AI de klant niet verder kan helpen. De focus verschuift hiermee van aantal minuten per gesprek en de hoeveelheid gesprekken per uur naar klanttevredenheid en gemiddelde afhandelingstijd. Daarnaast zorgt de opslag van alle verzamelde gegevens vanuit de chatbots ervoor dat u beter analyses kan uitvoeren op de behoeftes van u klanten en hier beter op kan inspelen. Hierdoor kan u ervoor zorgen dat onbekende problemen op tijd worden opgemerkt, zodat u hier actie op kan ondernemen en de klanttevredenheid kan verhogen.


Al met al is de conclusie dat u uw klanten met behulp van AI via bijvoorbeeld chatbots beter en sneller kan helpen, maar daarnaast ook zelf meer inzichten kan verzamelen over wat uw klanten vinden en via aanvullende analyses de customer feedback kan omzetten in een verhoogde tevredenheid en daarmee hogere verkoopcijfers.



De chatbotsoftware van IBM

Ik hoop dat u met deze informatie enthousiast bent geworden over de mogelijkheden die AI kan bieden voor uw customer feedback en klantcontacten. Ik kan me zo voorstellen dat u nu graag aan de slag zou willen met deze technologie. De markt is vol van applicaties, chatbots en services die hierbij ondersteunen. Maar om u vast op weg te helpen bieden wij hieronder een gratis trial versie aan van de chatbot van IBM. De chatbot software van IBM is toegankelijk opgesteld en er zijn diverse trainingen en documentaties beschikbaar die u snel op weg helpen. Om u alvast op weg te helpen heb ik alvast een demo klaargezet die u in korte tijd de meest essentiële onderdelen leert. Sowieso kunt u kosteloos gaan onderzoeken wat uw mogelijkheden zijn en hoe u AI kan opnemen in uw organisatie, dat is natuurlijk iets wat iedereen graag wil!

Heeft u vragen of opmerkingen? Laat deze gerust onder deze blog achter. Ik ben erg benieuwd naar uw mening en de uitdagingen die u mogelijk ervaart!


Meer informatie & zelf aan de slag