Debatt ● Jannike Gottschalk Ballo og Magnus Eliasson Stubhaug
Vi har tenkt feil om bruk av vekting i spørreundersøkelser
Vekting er en mye brukt metode for å bøte på systematisk frafall i spørreundersøkelser. Men bruk av vekting kan virke direkte mot sin hensikt, viser nye NIFU-undersøkelser.
Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Et populært verktøy for å sikre representativitet i spørreundersøkelser er bruk av vekter. Vekting betyr at man gir større tyngde til besvarelser som kommer fra underrepresenterte grupper, og toner ned svarene til overrepresenterte grupper.
Synkende svarprosent i spørreundersøkelser generelt har de siste årene ført til bekymring for synkende datakvalitet. For eksempel gjennom skjevhet i hvem som deltar, slik at data som samles inn ikke representerer virkeligheten for populasjonen undersøkelsen er ment å belyse.
Men det kan se ut som om vi må tenke nytt rundt bruk av vekting i spørreundersøkelser.
I nye analyser gjennomført ved NIFU finner vi, i likhet med tidligere studier, at sammenhengen mellom svarprosent og datakvalitet er betydelig overdrevet. Svarprosent i seg selv gir ingen indikasjon på datakvalitet.
Dette har vi funnet ut ved å koble data fra Kandidatundersøkelsen (KU) som gjennomføres av NIFU til «fasit» i registerdata på variabelen månedslønn.
Formålet med analysene var å sjekke hvor godt vi treffer reell månedslønn, når vi bruker data fra KU til å estimere gjennomsnitt for forskjellige grupper. Ved å koble de individuelle KU-besvarelsene til registerdata kan vi beregne avviket mellom målt lønn og reell lønn. Dette avviket kaller vi for målefeil.
Våre analyser viser altså at generell bruk av vekting kan redusere datakvaliteten snarere enn å forbedre den.
Jannike Gottschalk Ballo og Magnus Eliasson Stubhaug
Til tross for at svarprosent ofte betegnes som en indikator på datakvalitet, er ikke lav svarprosent nødvendigvis en kilde til målefeil. Det er først når svarprosenten varierer systematisk mellom grupper at målefeil kan oppstå. I tillegg må tilbøyeligheten til å svare være assosiert med utfallet man måler.
Et eksempel er når personer med høy lønn har høyere svartilbøyelighet enn personer med lav lønn. Data fra undersøkelsen vil da gi høyere mål på gjennomsnittslønn enn det som er tilfelle i populasjonen, fordi rike mennesker er overrepresentert.
Systematisk variasjon i svartilbøyelighet er imidlertid kun én av flere kilder til målefeil. En annen feilkilde er feilrapportering — enten som følge av misforståelser, dårlig hukommelse eller direkte løgn.
I våre analyser finner vi at menn oftere svarer feil når de rapporterer egen månedslønn, og at de bommer med større beløp, enn kvinner.
Vi finner også at feil introdusert ved feilrapportering langt på vei overskygger feil som skyldes skjevhet i svartilbøyelighet. Dette viser at vi burde være mer bekymret for at folk misforstår spørsmål eller lyver, enn å sikre høyest mulig svarprosent.
Når det gjelder svartilbøyelighet finner vi at kvinner er overrepresentert, mens menn er underrepresentert.
Det er med andre ord en sammenheng mellom svartilbøyelighet og feilrapportering. Respondenter som har lavest svartilbøyelighet — altså menn — er også de som feilrapporterer mest.
Denne sammenhengen har noen viktige implikasjoner.
For det første vil det at sammenhengen finnes bidra til å holde målefeilen nede.
For det andre vil forsøk på å justere for skjevhet med for eksempel vekting tillegge feilrapporteringen større vekt og følgelig øke undersøkelsens målefeil. Andre tiltak som forsøk på å øke svarprosenten blant menn spesifikt vil ha samme negative virkning på målefeilen.
Våre analyser viser altså at generell bruk av vekting kan redusere datakvaliteten snarere enn å forbedre den. Derfor er det viktig å først vurdere hvilke mulige kilder til feil man har å gjøre med, før man setter inn tiltak.
Gitt at feilrapportering utgjør en betydelig større feilkilde enn skjevhet som følge av variasjon i svarprosent, vil det ofte lønne seg å legge ressursene på utforming og pilotering av spørreskjema i forkant, fremfor å vekte i etterkant.