Wat is een (goede) neuropsychologische test?

De studie van het maken van goede tests, is niet zo heel populair onder psychologie studenten. Ik hoop te laten zien dat dat wél zo zou moeten zijn. Eén van de belangrijkste redenen voor dit pleidooi is dat tests het belangrijkste gereedschap van psychologen zijn. Met goede meetmethodes kun je ook goede conclusies trekken, over bijvoorbeeld hersenfunctioneren.

Tests zijn gerichte, standaard procedures om iemand iets te laten doen en dan te registreren hóe iemand dat doet en wat de resultaten zijn. Bijvoorbeeld, iemand vragen om 7 en 5 bij elkaar op te tellen, is een zeer eenvoudige procedure. De vraag is steeds hetzelfde, de getallen kunnen verschillend zijn (2+3 of 6+1). Het resultaat kan eenvoudig gescoord worden: goed of fout. Een meer complexe procedure gebruikt meer resultaten, naast de uitkomst bijvoorbeeld ook hoeveel tijd iemand doet over een rekensom. Psychologie geeft aan dat je genoeg uitkomstmaten moet hebben zodat de resultaten kunnen verschillen. Want als resultaten kunnen verschillen dan kun je ook verschillen tussen mensen ontdekken. Een simpele geheugentest waarbij je 2 woordjes moet onthouden heeft niet genoeg variatie in zich (score is slechts 0, 1 of 2). Veel mensen zullen dit wel kunnen, dus áls hun geheugens van elkaar verschillen, dan kan dat niet met deze simpele methode opgespoord worden.

Wanneer in de psychologie een nieuwe procedure is ontwikkeld, is het meest belangrijke om te zien welke resultaten gevonden worden met deze nieuwe methode bij normale mensen. Ik bedoel dan: gezonde mensen zónder hersenletsel. Maar ook bij mensen met hersenletsel. Natuurlijk kun je niet iedereen gaan testen dus wordt er zoveel mogelijk een representatieve steekproef genomen. Dat is een groepje personen die in vele opzichten zo gelijkwaardig mogelijk moeten zijn aan de totale groep (populatie genoemd), qua leeftijd, opleiding en geslacht. Bijvoorbeeld, wanneer een aandachtstest vooral bedoeld is voor volwassenen, kan ik niet zo maar een steekproef samenstellen met alleen maar kinderen onder de 12 jaar. Natuurlijk zullen kinderen anders reageren dan volwassenen en is deze steekproef niet representatief voor de gehele (volwassen) bevolking.

Psychologie zegt niet zoveel over welke vorm procedures moeten hebben. Ikzelf geef de voorkeur aan computertests omdat ze eenvoudig af te nemen zijn en de meeste patiënten vinden ze leuk. Bovendien, de computer maakt geen fouten in het registreren van de resultaten en is razendsnel met het berekenen van de uitkomsten. Helaas zijn de meeste psychologen nog ‘ouderwets’ en vaak digibeet. Dat betekent dat ze meestal nog papier-en-potlood versies afnemen (zeker 90%). Dit kost vaak meer tijd om af te nemen, meer fouten zijn mogelijk bij het registreren en meer variatie is mogelijk tijdens een afname.

Betrouwbaarheid is essentieel

Psychologie heeft een aantal (statistische) regels opgezet waaraan een test moet voldoen. Eén regel is dat een procedure vooral betrouwbaar moet zijn. Dat betekent dat als het 1 keer iets meet, het een andere keer ook exact zo gemeten moet worden (test-hertest betrouwbaarheid). Net zoals een bloeddrukmeter die niet per meting geheel andere waarden mag aangeven áls je bloeddruk constant is. Betrouwbaarheid is belangrijk omdat áls de resultaten verschillen tussen metingen je moet kunnen concluderen dat het ligt aan de eigenschap die je meet, en niet aan je meetinstrument zelf.

Normaliter, wordt test-hertestbetrouwbaarheid gemeten door dezelfde test minstens 2x af te nemen bij dezelfde groep patiënten of gezonde mensen. Waarbij ervan wordt uitgegaan dat de groep patiënten of gezonden niet veranderd is. Daarom is het ideaal als tussen 2 metingen slechts enkele weken zitten: de kans dat er dan veranderingen optreden binnen deze groep mensen is dan erg klein.

Helaas is het erg lastig voor testontwikkelaars om gezonde mensen te vinden die binnen enkele weken 2x getest willen worden met dezelfde test. De meeste studies laten dan ook andere betrouwbaarheidsmaten zien omdat simpelweg test-hertest-betrouwbaarheid niet gemeten kon worden.

Neuropsychologische tests verschillen in hun betrouwbaarheid. Er zijn tests waarbij het hertest-effect erg hoog is. Dat is het geval bij tests waarbij je al snel door hebt hoe het werkt. Dus de 2e keer dat je deze test krijgt wordt deze veel beter gemaakt dan de 1e keer. Bijvoorbeeld, enkele simpele geheugentests hebben dit probleem. Het nadeel is dan dat de test-hertest-betrouwbaarheid kunstmatig hoog is. Ook bij probleemoplossings-tests (waarbij je moet puzzelen of nadenken) is dit probleem aanwezig. Maar hierbij speelt ook een rol dat deze tests de ene keer slecht worden gedaan en de andere keer weer heel goed. Juist omdat het ook tests zijn die gericht zijn op verschillende manieren van denken: de ene keer wordt zus gedacht, de andere keer zo. Dit verschil in resultaten zorgt vaak voor lagere test-hertest-betrouwbaarheden zodat niet echt meer te zeggen is of hersenfuncties verbeterd zijn of niet.

De oplossing die dan meestal bedacht wordt is het ontwikkelen van parallelle testvormen: tests die sterk op elkaar lijken en dus onderling uitwisselbaar lijken te zijn. Maar vaak moet dan in een grote normeringsstudie alle parallelvormen worden afgenomen bij de groep gezonde mensen. Dat is zeer arbeids- en tijdsintensief; het wordt dan ook vaak nauwelijks gedaan of slechts bij kleine groepen mensen. En vaak wordt er geld betaald aan deze vrijwilligers zodat er over het algemeen lang niet altijd sprake is van een representatieve steekproef.

Validiteit is noodzakelijk

Validiteit betekent dat een procedure inderdaad meet wat het moet meten. Wanneer ik een geheugentest kies wil ik wel zeker zijn dat deze test daadwerkelijk zoiets als het ‘geheugen’ meet. Wanneer ik iemand vraag 3 woorden te onthouden dan is dit redelijk duidelijk: het meet iets van het geheugen. Maar wanneer ik iemand vraag 15 woorden te onthouden, en ik bied deze 5x aan, dan meet deze procedure zeker het verbale geheugen maar nog wel wat meer (zoals aandacht bijvoorbeeld). Dat komt omdat zulke langere, complexere testprocedures meer een beroep doen op de informatieverwerking en niet direct duidelijk is wat zij dan allemaal precies meten.

Het vaststellen van validiteit is één van de meest uitdagende en moeilijkste taken voor een testontwikkelaar, en veel is er al over geschreven. We hebben vooral veel goede kennis nodig. Maar helaas, onze kennis ten aanzien van hersenfuncties is nog erg beperkt. We weten nog altijd niet goed wat er gebeurt in welke hersengebieden. Daarvoor zijn onze hersenscans nog veel te primitief en onze hersenen nog té complex. Dus verzinnen wetenschappers tig modellen over het geheugen, de aandacht, het probleemoplossend vermogen. In studies proberen zij dan bewijzen te vinden voor dit of dat model. En deze worden dan gepubliceerd in vele verschillende tijdschriften. Het zou veel gemakkelijker zijn als we slechts 2 of 5 tijdschriften zouden hebben maar we hebben er in werkelijkheid een paar honderd! Dus, moet je zelf een soort consensus vinden tussen al die studies en modellen van onze hersenfuncties. De meeste wetenschappers gebruiken hiervoor grote review-studies en je ziet in de literatuur wel consensus vormen ontstaan.

Maar…als het gaat over het interpreteren van neuropsychologische tests, en vooral wat zij zouden moeten meten, is het een ratjetoe. Elke onderzoeker gebruikt in studies vaak zijn eigen methode/procedure om te demonstreren dat een bepaald model over een hersenfunctie al dan niet klopt. Het gevolg is dat we hedentendage zitten met soms tientallen versies van één en dezelfde test. Een test procedure kan er wel hetzelfde uitzien, maar als de instructies net even iets anders zijn, of de testvorm is net even anders, dan kunnen de resultaten ook anders eruit gaan zien. Dat is nou niet bepaald betrouwbare wetenschap. Maar door een hoge publiciteitsdruk onder wetenschappers, letten zij niet zo op zulke ‘details’, als hun studie maar een bepaald model aantoont. Ze nemen dan voor het gemak aan dat een bepaalde testprocedure overal wel hetzelfde is. En daarbij, ze zijn ook geen test psychologen.

Als een neuropsychologische testontwikkelaar ben ik het sterk oneens met zo’n houding van wetenschap doen. Het leidt niet tot consistente resultaten en tot de opbouw van een grote database aan kennis. Het benaderen van de werkelijkheid wordt op deze manier niet echt optimaal behaald. Het wordt echter nog erger. Omdat clinici, die de patiëntenzorg uitvoeren, afhankelijk zijn van wetenschappelijke artikelen, kiezen zij vaak niet optimaal voor de juiste tests. Ik heb genoeg voorbeelden gezien van slechte wetenschap (maar wel geaccepteerd) waarbij tests werden gebruikt in onderzoeken die ronduit zwak zijn. Zwak in klinische zin: niet gevoelig voor wat het zou moeten meten. Maar omdat dergelijke (vaak heel korte) tests in allerlei studies leuke grafiekjes laten zien, worden ze veel in studies gebruikt. Clinici denken dan dat dat goede tests zijn en gebruiken deze dan ook in de praktijk. Omdat nu eenmaal wetenschap vooral het volgen van elkaar is, en consensusvorming in de hand werkt, blijven slechte tests gebruikt worden. Ik zie nog altijd zwakke proefschriften (maar wel geaccepteerd) waar met zulke zwakke tests is gewerkt. Helaas worden er daarmee conclusies getrokken die ronduit onwaar zijn. Maar omdat het in proefschriften staat, gaan ze een eigen leven leiden. Bijvoorbeeld: dat mensen na een beroerte weinig aandachtsproblemen hebben, omdat de tests die ze zouden moeten vaststellen té ongevoelig zijn voor aandachtsproblemen. Of dat vermoeidheid minder vóórkomt na een hersenbeschadiging, want met de gebruikte tests blijkt niets van deze vermoeidheid. Er wordt dan totaal voorbij gegaan aan al die klinische ervaring en verhalen van de patiënten zelf, die vaak totaal anders zijn dan die beperkte studies in proefschriften. Ik hoop in mijn bespreking van tests dergelijke zwakke tests naar voren te halen en ik roep hierbij op tot het stoppen met dergelijke (vaak veelgebruikte) tests.

Standaardisatie

Een andere regel in test psychologie is dat een (neuropsychologische) test op een standaard manier afgenomen moet worden. Het liefst exact op eenzelfde manier. Want als een patiënt steeds iets andere instructies te horen krijgt is de kans groot dat hij ze anders gaat begrijpen en dat kan de resultaten negatief beïnvloeden. Wanneer je bijvoorbeeld 10 woorden moet onthouden en ik geef 2 verschillende instructies zoals ‘onthoud vooral de 1e vijf woorden’ of ‘onthoud vooral zoveel mogelijk woorden’, dan kan het zijn dat de eerste instructie minder resultaten oplevert (omdat er dan minder aandacht wordt besteed aan andere woorden).

De meeste tests hebben daarom standaard instructies die zo exact mogelijk opgelezen moeten worden. Psychologen zijn getraind om dat te doen. In neuropsychologische onderzoeken zijn zulke standaard instructies dus erg belangrijk. Met name omdat lichte wijzigingen in instructies kunnen betekenen dat een patiënt met hersenletsel iets minder goed begrijpt of verkeerd opvat. Dat resulteert direct in andere resultaten. Wanneer je dan ook nog een uitkomst maat hebt van bijvoorbeeld maar 5 woordjes, dan is een kleine wijziging in de instructies al in staat om een relatief grote wijziging in resultaten te geven (b.v. 4 vd 5 woorden onthouden).

In veel geheugentests worden de te onthouden woorden hardop uitgesproken door de tester, op een bepaalde snelheid (meestal 1 woord per seconde). Het probleem hier is echter dat elke stem anders is: de intonatie, de articulatie (het uitspreken) van de woorden wisselt. Zelfs de snelheid kan wisselen. Al deze factoren kunnen zorgen voor verschillende resultaten binnen eenzelfde geheugentest. Dus idealiter zouden alle woorden op een band gezet moeten worden, die afgespeeld wordt op dezelfde bandrecorder met exact dezelfde snelheid. Echter, dit gebeurt in de praktijk niet exact genoeg. Het meest eenvoudige is een WAV-bestand maken van alle woorden en deze op een computer afspelen. Maar omdat vele psychologen de relevantie ervan niet zien, en nóg erger, zelf ook digibeet zijn, gebeurt deze manier van afname vrijwel nooit. Wil de neuropsychologie verder komen dan denk ik wel dat zo’n strikte standaardisatie noodzakelijk is.

Goede normen worden voorgeschreven maar in de praktijk zijn ze minder aanwezig

Wanneer een neuropsychologische test eindelijk af is, in een standaard vorm met standaard instructies voor afname, en ook voldoende betrouwbaarheid en validiteit heeft, dan is het noodzakelijk te weten wat de resultaten nu precies betekenen. De meest belangrijke vraag bij een neuropsychologisch resultaat is namelijk: is de test- uitslag normaal of niet normaal? Behoort de score van de test tot een normale populatie of behoort het tot een groep van hersenletsel patiënten. En de tweede gerelateerde vraag is: hóe abnormaal is deze score?

Ik kan hier gerust nogal kort door de bocht beweren dat de meerderheid van de meest gebruikte en bekende neuropsychologische tests inadequate normen hebben. Dit betekent dat de normen vaak niet representatief of te oud zijn. Dit komt niet eens zozeer doordat onderzoekers dit zo graag willen, maar vooral omdat het normeren van nieuwe tests zoveel tijd en energie kost. En het is ook niet het werk van wetenschappers maar van de testuitgevers. En zij werken marktconform. Dat betekent dus ook dat zij niet investeren in dure testnormeringen als de tests toch wel verkocht worden…Tenzij wij met z’n allen alleen maar goed genormeerde tests gaan eisen én gebruiken. Maar in plaats daarvan blijven we, zoals zo vaak, vasthouden aan onze vertrouwde gewoontes en tests gebruiken die eigenlijk werkelijke vooruitgang hinderen.

In een dergelijke miserabele toestand zitten we nog altijd, overal op de wereld. Competitie, publiciteitsdruk, statusangst, egocentrisme, dit alles heeft niet geleid tot een wetenschap waar we trots op kunnen zijn. Het heeft niet geleid tot het wereldwijde, cultuurvrije gebruik van enkele neuropsychologische tests die daardoor ook zeer uitgebreide en goede normen hebben. De menselijke aard, het hóe en waarom van het maken van tests is niet iets wat in psychologie cursussen of studies terug komt. Zodat de ellende voortduurt. Maar mijn droom blijft het dat slechts enkele goede tests wereldwijd gebruikt zullen gaan worden, en dat daardoor een wereldwijd beschikbare database ontstaat van normen. En natuurlijk bestaan er al enkele tests die wereldwijd gebruikt worden zoals de Wechsler batterij (WAIS-III) en de Delis-Kaplan sets. Maar we hebben bij mijn weten nog altijd niet een groot reviewers forum waarin de tekortkomingen van deze test-sets aan bod komen en waarin suggesties voor verbeteringen te vinden zijn. Dit zou bijvoorbeeld wel door deze website mogelijk zijn, geheel gratis. Met uw hulp als clinicus, onderzoeker of testontwikkelaar.

Soms is het normeren van een test niet echt noodzakelijk. Bijvoorbeeld als je vrij zeker weet dat normale, gezonde mensen de test bijna 100% goed doen. Dit is het geval bij visuele veld tests op de computer waarbij snelle flitsen links en rechts te zien zijn. We weten dat een gezond iemand alle flitsen moet kunnen zien, vanwege een normaal gezichtsveld. Ook kinderen. Dus bij zo’n test is het missen van 2 of meer stimuli (prikkels of flitsen in dit geval) natuurlijk verdacht. Het heeft weinig zin om dit uitvoerig te onderzoeken bij vele gezonde vrijwilligers. Dit wordt lang niet altijd in test psychologie boeken uitgelegd. Ook eenvoudige neurologische procedures zoals het omhoog bewegen van je arm of het met je ogen dicht aanwijzen van je neus (met b.v. je rechterwijsvinger) lukken vrijwel ieder gezond mens. Idealiter zou een neuropsychologische test zó simpel moeten zijn en tegelijkertijd ook goed onderscheid moeten kunnen maken tussen patiënten met hersenletsel en gezonde mensen. En juist dit onderscheid maken is bij tests die zogenaamde plafondeffecten hebben (dus té gemakkelijk zijn) vaak het probleem: iedereen scoort vrijwel altijd zeer goed, dus waar blijft dan het verschil tússen mensen? Jammer dat dergelijke filosofie, test filosofie, niet zo duidelijk wordt onderwezen. Op deze manier begrijpen psychologen beter hoe lastig en tegelijkertijd uitdagend en boeiend het is om een goede test te ontwikkelen.

Verkrijgbaarheid

Een goede neuropsychologische tests zou goed verkrijgbaar moeten zijn en klanten zoals clinici zouden snel moeten kunnen vinden wáár de test verkrijgbaar is. Helaas is dit nog altijd niet het geval. Je moet soms echt moeite doen om uit te zoeken wáár een neuropsychologische test te koop of te vinden is. Er bestaat geen centrale database waar deze informatie te vinden is. Ik zelf gebruik 2 grote boeken waarin dit staat. Maar soms kloppen hierin de gegevens niet, of is de testuitgever al verhuisd of zelfs failliet. Dan helpt Google. Een beetje. Want je moet toch enige creativiteit hebben om alles goed te vinden. Dit zou toch wat beter kunnen, bijvoorbeeld met deze website waarop alle informatie te vinden is, althans van enkele neuropsychologische tests die ik als erg goed beoordeel.

Klantvriendelijk en klinische bruikbaarheid

Wetenschappelijk gezien bestaat zo’n criterium voor tests niet echt. Het is meer mijn persoonlijk criterium, als gebruiker. Omdat, als ik meer dan 3000 patiënten zelf getest heb, en ruim 200 gezonde mensen, dan wil ik wel dat het afnemen van een test leuk is, gemakkelijk, net zoals betrouwbaar en valide. Wanneer namelijk een patiënt of gezond iemand een test echt niet leuk vindt, dan is de kans groter dat zijn prestaties daar negatief onder lijden. Iemand wil dan zo’n test niet echt goed doen. Laat staan de test voor een tweede keer doen. Als neuropsycholoog heb ik wel mijn methodes om verminderde inzet te ontdekken maar de schade is dan al gebeurd. Dan kan ik alleen nog maar concluderen dat er sprake was van ‘onderpresteren’ of verminderde inzet, wat de testresultaten veel minder betrouwbaar maken. Conclusies zijn dan nauwelijks nog te trekken. Een testontwikkelaar zou goed moeten nadenken over hoe leuk een test is; dat gebeurt overigens veel beter bij kindertests dan bij volwassen tests. Alsof volwassenen ook niet een leuke test willen doen! Er zijn bijvoorbeeld tests waar bekend is dat het uitvalpercentage hoog is (Paced Auditory Serial Addition Task, of de Wisconsin Card Sorting test) omdat mensen erg gestressed raken van deze tests. Valide conclusies zijn dan moeilijk te trekken en het schaadt sowieso het aanzien van neuropsychologisch onderzoek.

Klantvriendelijkheid van een test is wat lastig te meten. Maar het is volgens mij goed mogelijk om tests te maken waarbij de patiënt niet teveel gestressed raakt, of teveel teleurgesteld of te kwaad wordt. Omdat de test procedure dat simpelweg niet laat gebeuren. Daarom wordt vaak ook gekozen voor een afbreekcriterium: bij bijvoorbeeld 3 fouten achter elkaar wordt de test gewoon afgebroken om de frustraties van de patiënt binnen de perken te houden.

Evaluatiecriteria Tabel voor neuropsychologische tests

Om een test te evalueren, te beoordelen, kunnen meerdere criteria opgezet worden. Ik heb hiervoor zelf een Tabel gemaakt waarin ik bepaalde criteria gebruik om iedere neuropsychologische test te beoordelen. De meeste van deze criteria zijn algemeen bekend en ze worden in handboeken gebruikt zoals die van Strauss, Sherman en Spreen (2006).

Echter, wat nieuw is, is dat ik deze beoordeling kwantificeer, dus een score geef. Hoe hoger de test scoort, hoe beter de test is. Op deze manier kan ik tests gemakkelijker met elkaar gaan vergelijken. Ook kan een gebruiker zoals een onderzoeker of clinicus meer gestimuleerd worden een test met veel punten te bekijken en te besluiten om zo’n test te verbeteren, te gaan gebruiken of niet.

Dit evaluatiesysteem dat ik opgezet heb is natuurlijk niet hét systeem of af. Ik zou het meer zien als een poging om kritischer naar neuropsychologische tests te kijken en interactieve discussies met gebruikers, onderzoekers en ontwikkelaars te stimuleren. Tot op heden heb ik namelijk voor hen geen forum gevonden en tijdschriften zijn niet het juiste medium voor open (kritische) informatie verstrekking. Mogelijk dat deze website iets in gang kan zetten. Ik wil in ieder geval pogingen wagen om nog veel betere neuropsychologische tests te ontwikkelen of aan te bevelen. Dat doe ik door op mijn testpagina’s om commentaar te vragen. Commentaar dat door iedereen gezien kan worden en aangevuld. Misschien dat dat ook kan leiden tot een beter internationaal test evaluatie systeem. Dat zou natuurlijk leuk zijn. Hieronder vind u de Tabel met de evaluatiecriteria die ik momenteel ga gebruiken voor de bespreking van elke neuropsychologische test hier.



Test criteria in Tabel toegelicht

Standaardisatie
Een goede test moet identiek zijn in elke plaats en tijd. Niet alleen in materialen, maar ook in de manier van scoren van de testresultaten en het afnemen van de test.
In materialen:
0= onvoldoende. Materialen zijn erg gevoelig voor afbraak door veelvuldig gebruik of vaak kopiëren. Voorbeelden zijn bandjes welke op verschillende bandrecorders met verschillend geluid en snelheden worden afgedraaid. Cassettebandjes kunnen hierdoor binnen enkele maanden een stuk slechter van kwaliteit worden. Ook kan het zijn dat het materiaal niet commercieel verkrijgbaar is (b.v. de 15-woordentest) zodat er meerdere kopieën op meerdere plekken in Nederland aanwezig zijn. Zodoende kunnen stimuli behoorlijk afwijken van de stimuli die gebruikt zijn in de normeringsstudies.
1= Redelijk. Materialen zijn commercieel verkrijgbaar maar nog altijd gevoelig voor achteruitgang na veelvuldig gebruik. Of: niet alle materialen zijn exact gestandaardiseerd en hebben één en dezelfde vorm.
2= Goed. Alle materialen zijn commercieel verkrijgbaar in één format en nauwelijks of niet gevoelig voor afbraak bij veelvuldig gebruik. Voorbeelden zijn plastic materialen, computer software en gedigitaliseerde geluids- en visuele opnames.

In scoring:
0= onvoldoende. Het scoringssysteem heeft niet voldoende duidelijke instructies zodat meerdere interpretaties mogelijk zijn. Dit verhoogt het risico op verschillen in scoring. Alle scoring moet met de hand gedaan worden zodat de kans op fouten ook hier toeneemt. Of het scoren met de hand kost minimaal 20 minuten wat ook het risico op vermoeidheid en fouten doet toenemen.
1= Redelijk. Het scoringssysteem heeft duidelijke instructies en meerdere interpretaties zijn vrijwel onmogelijk. Echter, het scoringssysteem moet nog altijd met de hand gedaan worden en neemt zeker 20 minuten in beslag. Nog steeds met een hogere kans op fouten en vermoeidheid.
2= Goed. Het scoringssysteem is volledig geautomatiseerd zodat fouten in scoring niet meer mogelijk zijn en het in minder dan 1 minuut gedaan wordt.

In afname:
0= onvoldoende. Het afnemen van de test is zo gecompliceerd dat het de nodige training vereist. Dit doet het risico op fouten toenemen. Of de afname heeft onvoldoende duidelijke instructies zodat de kans op verschillende afnamestijlen groot is.
1= Redelijk. De afnameregels zijn gedeeltelijk uitgeschreven in de handleiding. Het risico op verschillende afnamestijlen is nog altijd hoog maar als de handleiding strikt gevolgd wordt daalt dit risico behoorlijk.
2= Goed. De instructies voor de testafname zijn kort en duidelijk neergeschreven in de handleiding of ze worden getoond op het computerscherm. Het risico van verschillende afnamestijlen is daardoor laag.

Normen
Een goede test moet voldoende goede normen hebben en voldoende informatie moet gepresenteerd worden om de normering op waarde te kunnen beoordelen.

Gezonde controles
0= niet aanwezig of de normen zijn te oud en daardoor vrijwel zeker niet meer geldig. Of er zijn geen gegevens bekend.
1= aanwezig maar er zijn minder dan 100 controles, leeftijdsgroepen zijn nauwelijks gestratificeerd (dat wil zeggen netjes opgedeeld zodat alle leeftijden ongeveer even vaak voorkomen in elke leeftijdsgroep), regionale representatie is niet voldoende (niet in elke regio zijn de gezonde proefpersonen gevonden), niet alle leeftijden vanaf 8 jaar zijn vertegenwoordigd.
2=aanwezig en groepen zijn groter dan 100 gezonde controles, redelijk gestratificeerd en de leeftijdsgroepen zijn goed verdeeld en leeftijden vanaf 8 jaar komen goed voor.

Patiënt groepen
0= niet aanwezig of de normen zijn te oud en daardoor vrijwel zeker niet meer geldig. Of er zijn geen gegevens bekend.
1= aanwezig maar er zijn minder dan 100 controles, leeftijdsgroepen zijn nauwelijks gestratificeerd (dat wil zeggen netjes opgedeeld zodat alle leeftijden ongeveer even vaak voorkomen in elke leeftijdsgroep), regionale representatie is niet voldoende (niet in elke regio zijn de gezonde proefpersonen gevonden), niet alle leeftijden vanaf 8 jaar zijn vertegenwoordigd. Slechts 1 of 2 verschillende patiëntgroepen zijn vertegenwoordigd.
2=aanwezig en groepen zijn groter dan 100 gezonde controles, redelijk gestratificeerd en de leeftijdsgroepen zijn goed verdeeld en leeftijden vanaf 8 jaar komen goed voor. Meer dan 2 verschillende patiëntgroepen zijn vertegenwoordigd.

Internationale normen of landen
0= normen alleen maar aanwezig voor het land van oorsprong. Of geen gegevens bekend.
1= normen zijn aanwezig in verschillende talen en/of landen.

Betrouwbaarheid
Interne consistentie
0= onvoldoende. Betrouwbaarheidscoefficient lager of gelijk aan .70. Of geen gegevens gerapporteerd.
1= Redelijk. Betrouwbaarheidscoefficient tussen de .70 en .85.
2= Goed. Betrouwbaarheidscoefficient hoger of gelijk aan .85.

Test-hertest betrouwbaarheid
0= onvoldoende. Betrouwbaarheidscoefficient lager of gelijk aan .60. Of geen gegevens gerapporteerd.
1= Redelijk. Betrouwbaarheidscoefficient tussen de .60 en .85.
2= Goed. Betrouwbaarheidscoefficient hoger of gelijk aan .85.

Split-half betrouwbaarheid
0= onvoldoende. Betrouwbaarheidscoefficient lager of gelijk aan .60. Of geen gegevens gerapporteerd.
1= Redelijk. Betrouwbaarheidscoefficient tussen de .60 en .85.
2= Goed. Betrouwbaarheidscoefficient hoger of gelijk aan .85.

Parallel test betrouwbaarheid
zie het classificatieschema bij test-hertestbetrouwbaarheid.

Validiteit
Convergente validiteit
0= onvoldoende. Correlatiecoëfficiënten tussen de test en andere soortgelijke tests lager dan .30. Geen factor-analyse of clustering van onderliggende factoren gerapporteerd. Of helemaal geen gerapporteerde data.
1= Redelijk. Correlatiecoëfficiënten tussen de .30 en .40. Factor-analyse is uitgevoerd maar op een steekproef kleiner dan 100.
2= Goed. Correlatiecoëfficiënten hoger dan of gelijk aan .40. Factor-analyse of andere analyses gedaan om onderliggende factoren bloot te leggen. Steekproef groter dan 100 patiënten.

Divergente validiteit
0= onvoldoende. Correlatiecoëfficiënten tussen de test en andere tests (van een ander domein) zijn gemiddeld .40 of hoger. Of geen gerapporteerde data.
1= Redelijk. Correlaties tussen de test en andere tests is .30 and .40.
2= Goed. Correlaties tussen de test en andere tests is lager dan .30. De correlaties laten een duidelijke trend zien: ze worden lager naarmate de tests verder af komen te staan van het domein dat gemeten wordt.

Concurrente Validiteit en Predictieve Validiteit
zie de classificatietabel voor convergente validiteit.

Sensitiviteit en specificiteit
Afhankelijk wat de test moet doen, of het ontdekken van óf het uitsluiten van een specifieke stoornis, kunnen de waarden van sensitiviteit of specificiteit veranderen.
0=Lager dan 50% sensitiviteit en specificiteit; groepen zijn kleiner dan 100 personen.
1=tussen de 50 en 70% sensitiviteit en specificiteit; groepen zijn kleiner dan 100 personen.
2=hoger dan 70% sensitiviteit en specificiteit en groepen zijn groter dan of gelijk aan 100 personen.

Klinische bruikbaarheid en klantvriendelijkheid
Verkrijgbaarheid
0= niet commercieel verkrijgbaar of verkrijgbaarheid is sterk afhankelijk van de good-will van een persoon of een organisatie. Geen website beschikbaar.
1= Verkrijgbaar als een pro-deo product bij sommige toegewijde onderzoekers of testontwikkelaars. Alleen bereikbaar via gewone post. Geen website beschikbaar voor het bestellen van de test.
2= Erg gemakkelijk verkrijgbaar via een website met een bestelformulier. Meestal commercieel verkrijgbaar.

Gebruikersgemak
0= erg ingewikkeld om af te nemen, relatief veel tijd is nodig om de testafname eigen te maken. De testafname vraagt volledige concentratie om alles perfect uit te voeren.
1= niet zo ingewikkeld om af te nemen maar enige ervaring in het afnemen van tests is vereist en computer- en/of testvaardigheden zijn nodig om alles goed te doen.
2= Geen of weinig ervaring in het afnemen van tests is nodig of de afname duurt minder dan 5 minuten om te leren. Vaak zijn computertests zo eenvoudig af te nemen.

Gebruiksbreedte
0= alleen de beste patiënt groepen kunnen deze test redelijk uitvoeren omdat het niet te ingewikkeld is, niet te lang duurt en niet vervelend is om te doen.
1= alleen geschikt voor patiënten met voldoende visuele en/of motorische vaardigheden.
2= geschikt voor de meeste patiëntgroepen, zelfs voor de visueel of anderszins gehandicapten. Ook mogelijk voor kinderen boven de 8 jaar.

Wat vindt u van deze pagina? Vul uw commentaar hier s.v.p. in.

Please note that all fields followed by an asterisk must be filled in.

Please enter the word that you see below.

  




Ga terug van Test-psychologie naar Homepage Nederlands