Debatt ● Jan-ole Hesselberg, Ida Svege og Hans Christian Lillehagen
Uenige eksperter og inkonsistente beslutninger
Eksperter som vurderer forskningssøknader er bekymringsverdig lite enige, men det betyr ikke at denne måten å fordele forskningsmidler på må forkastes.
OBS! Denne artikkelen er mer enn tre år gammel, og kan inneholde utdatert informasjon.
Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Professor Inger Skjelsbæk tar i Khrono et “oppgjør med lotteriet forskningsfinansiering”. Hun sendte tilnærmet samme forskningssøknad til Norges forskningsråd (NFR) og til Det europeiske forskningsrådet (ERC). NFR mente den var middelmådig. ERC mente den var fremragende og bevilget 19 millioner kroner.
Saken blir heftig diskutert og noen tar til orde for endrede finansieringsmodeller. Noe overraskende er det at forskerne som engasjerer seg hviler så tungt på Skjelsbæks anekdote. Tusenvis av søknader behandles og det bør ikke overraske noen at inkonsistente vurderinger forekommer. Spørsmålet flere burde ha stilt seg er om anekdoten er representativ, og om det finnes forskning som kan si noe om det. Svarene er “nja” og et ubetinget “ja”.
I 2020 behandlet Stiftelsen Dam 3.579 søknader gjennom slike vurderingsprosesser, og fordelte nær 400 millioner kroner. Søknadene vurderes av flere eksperter som gjør sine vurderinger uavhengig av hverandre. Det gir oss muligheten til å analysere både 1) hvor uenige ekspertene er seg i mellom og 2) hvor reliable beslutningene er. Selv om våre prosesser skiller seg fra Norges forskningsråd sine på flere viktige områder, bruker vi samme karakterskala (1-7) og samme vurderingskriterier. Nylig publiserte vi våre analyser og refleksjoner i rapporten “Bedre søknadsbehandling”.
For å utforske noen av utfordringene vi støter på i ekspertvurderingene har vi sett nærmere på alle vurderingene som ble gjort av forskningssøknadene vi mottok i 2018. Vi fant at eksperter som vurderte samme søknad, i gjennomsnitt hadde en forskjell i karakterene på 1,3 (standardavvik = 1,16). I en annen analyse av de samme vurderingene definerte vi “enig” som en forskjell på maks en karakter mellom to eksperter som vurderte samme søknad. I 62 % av tilfellene var ekspertene enige. Det høres kanskje ikke så verst ut, men tallene tar ikke høyde for at enighet også kan oppstå ved tilfeldighet. Hvis vi hadde kastet sjusidede terninger i stedet for å sette karakterer, ville enighet ha oppstått rent tilfeldig i 39 % av tilfellene.
Ekspertvurderinger benyttes i svært viktige beslutninger i mange deler av offentlig forvaltning. Det er bemerkelsesverdig at et så sentralt tiltak i så liten grad er gjenstand for systematiske og offentlig tilgjengelige evalueringer.
Innleggsforfatterne
Når man i vurderingsprosesser lar flere eksperter vurdere den samme søknaden, er det delvis fordi man ønsker at eksperter med ulike perspektiv skal «se» ulike kvaliteter ved søknaden og dermed komplettere hverandres vurderinger. Vi ønsker altså en viss grad av uenighet.
Men ekspertenes vurderinger påvirkes av kjente og ukjente faktorer, og både systematiske skjevheter (bias) og tilfeldig støy øker sannsynligheten for at to eksperter ikke lander på samme karakter når de vurderer samme søknad. Tvetydige vurderingskriterier og bruk av karakterskala gir rom for ulik tolkning, og dersom opplæringen er mangelfull vil ekspertene miste muligheten for å korrigere misforståelser. Mangfold i ekspertenes bakgrunn kan føre til at de vektlegger søknadens styrker og svakheter ulikt og setter ulike karakterer. Og søknader som kvalitetsmessig egentlig er ganske like, kan være vanskelig å skille fra hverandre. Alt dette bidrar til at vi må forvente uenighet, uavhengig av hvor god prosessen er.
Til tross for at uenigheten delvis er ønsket, skaper omfanget av den problemer. Er ekspertene veldig uenige, slik som i vurderingen av våre forskningssøknader i 2018, spiller plutselig ekspertene og ikke søknaden den viktigste rollen for utfallet av søknaden. Vår analyser viste at 21 % av variasjonen i søknadens totalkarakter, forklares av egenskaper ved søknaden. 79 % forklares altså av andre ting enn søknaden! Som for eksempel hvilke eksperter som tilfeldigvis vurderte søknaden, hvordan de tolket vurderingskriteriene og karakterskalaen, om de var i godt humør, hvilke søknader de tilfeldigvis leste før din osv. Det finnes endel forskning på dette og den viser at resultatet vi fikk, ikke er et unntak. I en analyse av vurderinger hos National Science Foundation fant man at denne andelen lå mellom 25 og 37 %.
Kritikken mot Forskningsrådet
Anekdoten til Skjelsbæk er den naturlige konsekvensen av dette. Samme søknad kan sendes flere ganger, men få ulike svar. I en analyse av 194 forsknings- og utviklingsprosjekter der fant vi at dersom en innvilget søknad hadde blitt sendt på nytt og vurdert av en ny gruppe eksperter, ville den hatt 72 % sjanse for å bli avslått.
Vi kan antakelig trygt enes om at dette er problematisk høy grad av inkonsistens i beslutningene og at søknadens egenskaper bør spille en større rolle for hvordan den vurderes og dens endelige utfall.
Etter at vi begynte å analysere våre tildelinger, har vi innført flere tiltak for å øke konsistensen. Vi har gitt ekspertene mer systematisk opplæring, og endret vurderingskriterier og karakterskalaen. Men viktigst er at vi har erkjent at uenigheten likevel kommer til å være problematisk stor og at den beste måten å skape reliable prosesser på, er å la hver søknad få flere vurderinger. Flere vurderinger vil jevne ut de tilfeldige variasjonene mellom ekspertene. I 2018 ble forskningssøknadene i eksempelet over vurdert av to uavhengige eksperter. Med bakgrunn i funnene våre, besluttet vi å øke til fem. Etter at vi gjennomførte denne endringen, og de andre tiltakene, økte andelen av søknadenes totalkarakter som forklares av søknaden fra 21 til 77 %.
At vurderingene blir mer konsistente, trenger ikke å bety at de beste prosjektene velges oftere. Men dersom vurderingene er inkonsistente, kan de umulig velge de beste prosjektene på en systematisk måte. Sagt på en annen måte: Uten reliabilitet, ingen validitet.
Ekspertvurderinger benyttes i svært viktige beslutninger i mange deler av offentlig forvaltning. Det er bemerkelsesverdig at et så sentralt tiltak i så liten grad er gjenstand for systematiske og offentlig tilgjengelige evalueringer. Et system basert på ekspertvurderinger er ikke perfekt, men for forskningsfinansiering finnes ingen åpenbare alternativer.
Alle alternativene forutsetter at noen må vurdere og prioritere. Vi tror at å gå bort fra konkurranseutsetting av forskningsmidler er en vesentlig dårligere løsning enn å videreutvikle dagens modeller - for eksempel ved bruk av kunstig intelligens i å finne egnede eksperter til søknadene, bedret opplæring av ekspertene, begrensing av arbeidsbelastningen for søkere og introduksjon av loddtrekning i deler av utvelgelsesprosessen.