Personlighetstester i rekruttering: Høy presisjon, lav relevans?

Vi kan høre fra mange testleverandører at personlighetstester er mer valide enn mennesker. Det betyr at vår egen vurdering av en person er mindre korrekt enn resultatet på en personlighetstest. Denne påstanden fører ofte til at testresultatene generaliseres, og brukes som mål på egenskaper som egnethet, arbeidskapasitet, lederpotensial, samarbeidsevne etc. Det er imidlertid ikke disse egenskapene man måler med en personlighetstest. La oss si at vi har en skala som heter samarbeidsevne. Dette målet vil som regel en sammenstilling av mer generelle personlighetstrekk, f.eks. utadvendthet, vennlighet og sosial trygghet. Hvis skåren på samarbeidsevne er en sammenstilling skårer på disse trekkene, så er denne skåren en tolkning. Testskårene kan være validert for trekkene utadvendt, vennlig og sosial trygghet, men det er ikke nok til at vi også kan si om testen måler samarbeidsevne. Denne skalaen har må valideres for seg.

Når enkelttrekk kombineres for å konstruere en ny skala, må du også vite hvordan er denne skalaen er konstruert. Hvis den f.eks. er en summering av de tre underliggende trekkene, risikerer vi at skåren på samarbeidsevne gir samme skår til personer som har ulike besvarelser. En skårer høyt på E og lavt på V, en annen skårer høyt på V og lavt på E. De to personene skårer likt på samarbeidsevne, men er de like gode til å samarbeide? Det høres ikke sannsynlig ut.

Testvaliditet handler ikke om testen, men tolkningen. Hvis skårene tolkes som kriterier for en bestemt egenskap, så må testleverandøren dokumentere kriterievaliditet, sammenheng mellom testskår og kriterium (f.eks. samarbeidsevne). I noen tilfeller kan forskningslitteraturen dokumentere sammenhengen mellom personlighetstrekk og et eksternt kriterium. Skåren på «planmessighet/integritet/ordentlighet» kan forventes å ha kriterievalidtet i forhold til generell jobbprestasjon, men det er få andre eksempler.

Sammenhengen mellom personlighet og kompetanse blir sjelden dokumentert. To personer med samme ferdigheter kan ha svært ulike personligheter. En skala som oppgis som mål på spesifikke ferdigheter eller kompetanser, reflekterer som regel hva man ønsker å måle, og ikke hva testen faktisk måler.

Mens validitet er en egenskap ved tolkning av testresultatene, så er reliabiliteten (om testen er til å stole på) en egenskap ved testen. Hvis man måler stabile trekk, er den reliabel hvis den gir samme resultat, hver gang du gjennomfører testen. Uten dokumentasjon på re-test-reliabilitet og kriterievaliditet gir det lite mening å bruke testen. Utfordringen med å lage tester som måler en bestemt ferdighet, er at reliabilitet går på bekostning av validitet.

Reliabilitet er en forutsetning for validitet, og den konstrueres slik at skalaene skal være så stabile som mulig. Dette krever at hver skala inneholder så mange ledd, at skåren ikke påvirkes av «feilsvar». I tillegg må man avgrense innholdet i testleddene slik at man hva som gir høye og lave skårer på en bestemt skala. Skalaen må i tillegg måle egenskaper som kan beskrives og forstås på samme måte av alle som skal bruke testen.

Kravet til reliabilitet begrenser derfor hva en skala kan måle. En fullstendig beskrivelse av personlighet blir mest meningsfull hvis den inneholder informasjon om personens tanker (synspunkter, vurderinger, preferanser), følelser (motivasjon, interesser, energinivå) og handlinger (hvordan reagerer personen, hvordan oppfører han eller hun seg under stress, hvordan er gjennomføringsevnen når oppgaven er kjedelig, kan vedkommende motstå fristelser).

Personlighetstesten måler bare hvordan en person vurderer seg selv i testsituasjonen. Vår antakelse om at selvbeskrivelsen gjenspeiler væremåten utenfor testsituasjonen har størst gyldighet så lenge beskrivelsen er uavhengig av kontekst. Vi kan forvente at den som beskriver seg som utadvendt er mer utadvendt, enn noen som beskriver seg som innadvendt. Men hva denne tendensen gjør med personen i bestemte situasjoner blir mer usikkert etterhvert som situasjonen avviker fra testsituasjonen.

Testskårene har altså høyest validitet vi beskriver tendenser, og lavest når vi beskriver fremtidig atferd. Dette poenget er kanskje så åpenbart at det kunne vært utelatt, men

Det finnes mange motiver, og vår naturlige tendens er bare ett av dem. De utfordringene vi møter utenfor testrommet, kan kreve helt andre egenskaper. Selv om vi antar at samarbeidsevne gjenspeiles i enkelte personlighetstrekk, er det absurd å anta at høye skårer på disse trekkene er en forutsetning for å kunne samarbeide. Samarbeidsevne er aldri kontekstuavhengig, og ulike situasjoner utfordrer ulike sider av oss.

Samtidig begrenses reliabiliteten. Vi får nemlig ikke bare mer informasjon, men også flere feilkilder.