Psykometriske grunnbegreper
Psykometriske grunnbegreper med noen eksempler fra Sensory Profile, Bayley Scales of Infant and Toddler Development, Movement Assessment Battery for Children og Clinical Evaluation of Language Fundamentals
Nedenfor følger en kort presentasjon av noen grunnleggende psykometriske begreper som forekommer i Sensory Profile, Bayley Scales of Infant and Toddler Development (Bayley), Movement Assessment Battery for Children (Movement ABC) og Clinical Evaluation of Language Fundamentals (CELF), instrumenter som blant annet er rettet mot fysioterapeuter og logopeder.
Råskårer
Den oppnådde totale råskåren, det vil si summen av skårene fra alle oppgaver i en test (eller fra alle utsagn i et spørreskjema), gir generelt ikke noen informasjon. For at resultatet skal være mulig å tolke, må råskåren omregnes til standardskårer. En slik omregning foregår ved hjelp av en statistisk prosedyre som kalles skalatransformasjon, der fordelingen av råskårer blir overført til en standardskala. I testmanualene finnes det tabeller for enkel transformasjon av råskårer til standardskårer i de tilfellene der den papirbaserte utgaven av testen er administrert. Hvis testen administreres eller skåres digitalt, håndterer programmet omregningen automatisk. Det finnes likevel instrumenter – som for eksempel Sensory Profile – der tolkningen skjer på råskårenivå, og man benytter såkalte «cut-off-verdier»/grenseverdier (se beskrivelsen nedenfor).
Standardskårer og standardskalaer
Det finnes forskjellige typer standardskårer (av og til kalt normative skårer), og noen av de vanligste er indeksskårer, T-skårer, skalerte skårer, stanineskårer og stenskårer. Det er først når råskåren er omregnet til standardskåren at det begynner å bli mulig å få en oppfatning om hva skåren egentlig betyr, og hvordan det individuelle resultatet skal tolkes.
Ofte kan flere standardskårer (for eksempel skalerte skårer som ofte brukes på deltestnivå) i en test først summeres og deretter omregnes til en annen, mer oppsummerende standardskår. For eksempel i Bayley summeres de skalerte skårene for hver deltest til mer overgripende indeksskårer for de tre skalaene Kognisjon, Språk og Motorikk. Deretter brukes indeksskårene til normbaserte sammenligninger. Også i CELF og Movement ABC gjøres lignende summeringer for å gi brukeren et sammenfattet, overordnet bilde av hvordan barnets språk og motorikk utvikler seg.
Det er lett å sammenligne standardskårer med hverandre, ettersom de er skårer på standardskalaer. Standardskalaer utgår fra normalfordelingen og beskriver graden av «avvik» i det individuelle resultatet, uttrykt som avstand fra gjennomsnittsverdien.
Normalfordeling
Mange menneskelige egenskaper er normalfordelte. Når en bestemt egenskap måles hos et stort antall personer, vil de fleste ende opp et sted i midten, rundt gjennomsnittsverdien. En mindre andel av mennesker har ekstremt mye eller ekstremt lite av en bestemt egenskap. Alle de ulike standardskalaene er basert på normalfordelingen. På bildet kan man se tydelig at de fleste av alle observasjoner – det vil si mesteparten (cirka. 68 %) av alle målinger av en bestemt egenskap – ligger rundt gjennomsnittet. Noen litt under, og noen litt over. Jo lengre ut i «halene» på normalfordelingskurven vi kommer, desto færre observasjoner.
Normer og normgrupper
For å kunne tolke resultatet til et enkeltindivid på en test må vi sette resultatet i relasjon til noe. Hvor høyt eller lavt et resultat er, kan bare avgjøres når det sammenlignes med hvordan andre har prestert. Derfor har nesten alle tester normer, det vil si data som er innsamlet fra et stort antall personer – barn eller voksne, avhengig av type test. Når enkeltresultater sammenlignes med normene, får vi et bilde av hvordan de er i forhold til andre menneskers prestasjoner. En del tester har forskjellige normgrupper. Dette gjør det mulig å velge den sammenligningsgruppen som omfatter personer på samme alder som det individet man vil gjøre sammenligningen for. Det varierer fra test til test hvor mange normgrupper som finnes, og hvordan de er delt opp. For eksempel finnes det veldig mange ulike aldersbaserte normgrupper i Bayley, ettersom utviklingen av de forskjellige evnene som testen kartlegger, går raskt hos små barn, mens en skala beregnet på voksne kan ha betydelig færre normgrupper.
Standardfeil og konfidensintervaller
Skåren på en test er alltid et estimat på en persons «sanne» skår. De oppnådde skårene gjenspeiler resultatet i kombinasjon med en viss grad av målefeil (standardfeil). Den sanne skåren representeres mer nøyaktig ved at man etablerer et konfidensintervall rundt testresultatet. Et konfidensintervall er et intervall som den sanne skåren mest sannsynlig faller innenfor. Konfidensintervallet er en måte å uttrykke presisjonsgraden i den oppnådde skåren på. Det fungerer også som en påminnelse om at alle tester og spørreskjemaer er beheftet med målefeil. Det finnes informasjon om hvilket skårintervall som utgjør konfidensintervallet i normtabeller i testmanualene. Det er dette intervallet som skal brukes når testresultatet rapporteres, snarere enn den eksakte skåren. Den som bruker de digitale plattformene Q-global eller Q-interactive, får konfidensintervallene presentert i resultatrapportene som genereres i systemet.
Persentiler
I tillegg til standardskårer presenteres det også persentiler i både Bayley, Movement ABC og CELF. Persentilene representerer den prosentandelen av normgruppen som oppnådde et høyere eller lavere resultat enn en bestemt råskår. Persentilverdiene strekker seg fra 1 til 99 og kan sies å beskrive hvor vanlig eller uvanlig et bestemt resultat er i normgruppen. Et enkelt testresultat som for eksempel havner på den 65. persentilen, betyr at skåren er like høy som eller høyere enn resultatet til 65 % av personene i normgruppen. Eller omvendt: lavere enn i 35 % av sammenligningsgruppen. Til tross for at denne forklaringen er lett å forstå, må det utvises forsiktighet ved tolkning av persentiler. Persentilene i en normalfordeling har en tendens til å samle seg rundt midten av fordelingen. For personer som presterer gjennomsnittlig, betyr det at en endring på én eller to råskår(er) kan gi en stor endring uttrykt i persentiler. For personer som er høyt- eller lavtpresterende, kan en tilsvarende endring i råskåren derimot medføre ingen merkbare effekter på persentilnivå.
Diskrepansanalyser
Både Bayley og CELF omfatter mange deltester. For å avgjøre hvor stor forskjell det er mellom resultatene på deltestene, og om denne forskjellen er viktig (eller signifikant), kan såkalte diskrepansanalyser gjennomføres. I CELF kan diskrepansanalyser gi viktig informasjon om eventuelle ujevnheter i språkutvikling hos et barn, og i Bayley kan brukeren vurdere om for eksempel utviklingen av kognitive og motoriske evner holder tritt med hverandre eller ikke. Testmanualene beskriver tydelig hvordan diskrepansanalysene gjennomføres og tolkes i de tilfellene der testene administreres i papirversjon, og der analysene fullføres automatisk etter endt digital administrering på Q-interactive og Q-global.
Aldersekvivalenter
Mange tester, herunder Bayley, presenterer aldersekvivalenter. En aldersekvivalent representerer den gjennomsnittlige alderen, uttrykt i måneder, som en bestemt samlet råskår er typisk for. Aldersekvivalenter kan være lette å forstå og kommunisere, men de må brukes med svært stor forsiktighet. De gir ingen informasjon om hvordan resultatet forholder seg til andre individers resultater i den samme aldersgruppen. De er også følsomme for små endringer i råskåren.
Cut-off-verdier/grenseverdier
I Sensory Profile tolkes råskåren mot bestemte cut off-verdier, det vil si grenseverdier som markerer forskjellige grader av samstemthet med normgruppen. Er de oppnådde råskårene de samme som for de fleste andre, eller avviker de? Og hvis de avviker – hvor mye, eller hvor lite? Cut-off-verdier er ofte basert på et eksternt kriterium og markerer overgangen fra én kvalitativ kategori til en annen. I Sensory Profile brukes standardavviket som dette kriteriet. Standardavviket (SD) er det gjennomsnittlige avviket fra middelverdien i en rekke observasjonsskårer. Skårer som ligger innenfor cut-off-intervallet -1 til +1 SD, representerer ca. 68 % av populasjonen i den teoretiske normalfordelingen. På tilsvarende måte innebærer et resultat der en person har havnet over en cut-off-verdi på 2 SD, at personen tilhører en minoritet i normalfordelingen, nærmere bestemt får omtrent 2 % en så høy verdi. I Sensory Profile klassifiseres en slik person med merkelappen «Mye mer enn de fleste andre» for det aktuelle målet.
Reliabilitet
Reliabiliteten i en test påviser med hvilken presisjon eller pålitelighet testens oppgaver eller spørreskjemaets utsagn fanger opp det som skal måles. Reliabiliteten angis som en korrelasjonskoeffisient, som kan variere mellom 0 og 1. Det er forskjellige måter å måle reliabilitet på. Den vanligste er den som måler sammenhengen mellom de forskjellige oppgavene eller utsagnene i et instrument, og som da er et mål på instrumentets interne konsistens. Reliabiliteten bør ligge på .70 eller høyere for at målingen skal anses å være tilstrekkelig presis. Men i tilfeller der reliabiliteten er svært høy, er det en risiko for å gå glipp av bredden i den målte egenskapen eller evnen; det måleområdet blir for snevert. Andre vanlige reliabilitetsmål er testing av en og samme person over tid, såkalt test-retest, eller at samsvaret mellom testleddene undersøkes av forskjellige testledere, såkalt inter-rater reliabilitet.
Validitet
Validiteten til en test er dens viktigste egenskap. At en test har validitet, betyr at den måler det den skal måle, og ikke noe annet. I motsetning til reliabilitet er det vanskelig å tallfeste validiteten. Det finnes forskjellige typer validitet. Ofte finnes det opplysninger i testdokumentasjonen om hvordan spesielle grupper har prestert på testen, dvs. personer som har fått påvist ulike typer vansker (for eksempel med språklig eller motorisk utvikling). Når en test blir utviklet, samles det inn data for slike grupper for å avgjøre om testen kan skille mellom dem og personer uten tilsvarende vansker. Andre typer validitet har å gjøre med hvorvidt spørsmålene i testen er relevante for den egenskapen som skal måles, og om testen måler et noenlunde enhetlig begrep eller delaspekter av et begrep. En statistisk metode som kalles faktoranalyse, brukes vanligvis for å undersøke strukturen i en test. Hensikten med en faktoranalyse er å studere eventuelle bakenforliggende (såkalt latente) faktorer ved å analysere sammenhengene mellom observerte (såkalt manifeste) variabler.
Normering, normvalidering og oversettelse
Prosessen med å innhente sammenligningsdata til et instrument kalles normering. Normering er et sensitivt og omfattende arbeid – en stor mengde data som er representative for populasjonen som testen skal brukes på, må samles inn. Det må tas hensyn til en rekke demografiske variabler (som alder, kjønn og utdanningsnivå) for at instrumentets normer skal avspeile populasjonen på en adekvat måte og kunne brukes til sammenligningsformål. I noen tilfeller og for visse instrumenter kan en såkalt normvalidering gjøres i stedet. Det innebærer at en mindre mengde data samles inn for å undersøke relevansen til det opprinnelige normutvalget (som ofte er amerikansk eller britisk). I noen tilfeller kan en test publiseres som en kulturelt tilpasset oversettelse av originalversjonen. Det er først og fremst noe man gjør når det som skal måles, kan antas å være mindre følsomt for språklig og kulturell påvirkning, slik som for eksempel motorisk utvikling.
Niklas Hansen, fil.dr., prosjektleder, R&D, Pearson Clinical
Katarina Forssén, leg psykolog, prosjektledere, R&D, Pearson Clinical
Registrer deg for nyhetsbrevet vårt
Ønsker du aktuell informasjon om tester og kurs hos oss? Registrer deg for nyhetsbrevet.