kunstig intelligens
66 studenter tatt for KI-fusk: — Har ikke kontroll
Antall studenter tatt for fusk med kunstig intelligens har skutt i været. Men professor Peter Fjågesund mener dette bare er toppen av isfjellet. — I praksis er det nesten umulig å bevise, sier han.
I vår sensurerte Peter Fjågesund ved
Universitet i Sørøst-Norge tre masteroppgaver av lærerstudenter.
I to av dem mistenkte han fusk ved hjelp av kunstig intelligens (KI).
— I den ene var det ganske åpenbart at det ble brukt kunstig intelligens. Men i den andre er det gjort såpass intelligent at det er vanskelig å bevise noen ting. Den er skrevet på engelsk, som er mitt fag, på et nivå som er langt over det jeg kunne produsert, forteller Fjågesund, som er professor i britisk litteratur.
Sakene behandles som fuskesaker, men er ikke avgjort.
Fra tre til 66 fellelser
Da taleroboten ChatGPT ble lansert på tampen av 2022, fikk studenter et nytt fuskeverktøy. Men ikke mange ble tatt. Khronos opptelling i august 2023 viste st kun tre studenter felt.
Et år senere har antallet økt til det mangedoblede.
- Tall fra 17 statlige universiteter og høgskoler som Khrono har innhentet, viser at minst 66 studenter ble felt for fusk med KI i perioden 1. august 2023 til 29. juli i år.
- Av disse ble 56 utestengt fra studiene, og av disse 42 i to semestre.
Det faktiske antallet felte studenter er antakelig noe høyere, siden noen institusjoner mangler fullstendige tall.
Men Peter Fjågesund er ikke i tvil om det langt flere enn dette som har fusket.
— Jeg tenker at det er toppen av et gigantisk isfjell. Det kan jo ikke være noe annet.
— I praksis er det nesten helt umulig å bevise. Vi sitter i saksa. For å få noen felt, krever en dokumentasjon som vi strever fryktelig med å skaffe, sier han.
Flere som blir felt har klaget til det nasjonale organet Felles klagenemnd.
Dette blir de tatt for
Peter Fjågesund frykter at sensorer som mistenker KI-fusk, setter en lavere karakter enn det kvaliteten tilsier, fordi de mistenker fusk, men ikke kan bevise det.
— Da er du egentlig sjakk matt, du sitter og famler i blinde. For vi har egentlig ingen ting å komme med. Og hvis du har noe å komme med, vil en student, med advokat på slep, kunne skremme oss slik at vi ikke tør å si at vi mistenker noe som helst, sier professoren.
Khrono har fått innsyn i og gått gjennom fuskevedtakene fra det siste året. Mange blir tatt for «åpenbare» ting, som at kildene de refererer til ikke eksisterer eller ikke inneholder det studentene hevder de gjør.
Grove faktafeil, varierende kvalitet og språk internt i besvarelsen, generisk og generelt språk er ting som får sensorenes alarmklokker til å ringe.
Det er store variasjoner i antall fuskesaker fra lærested til lærested.
Universitetet i Sørøst-Norge (USN) felte flest: 13. Høgskolen på Vestlandet, som har nesten like mange studenter som USN, felte ingen (se faktaboks).
Her er noen eksempler på saker fra siste år:
Diktet opp steder
NTNU-studenten skrev om kulturminner, men refererte til funn og steder som sensorene ikke kunne finne, og som ifølge dem virket oppdiktede. For eksempel «Fannrem i Orkland», der det verken ble funnet kulturminner eller undersøkelser som passet med beskrivelsene i besvarelsen.
Og «et betydelig arkeologisk funnsted» på Fornebusletta.
I tillegg skilte enkelte avsnitt seg ut med en generell og overfladisk argumentasjon, og kilder var uriktige.
Bachelorstudenten innrømmet ikke fusk, men nemnda mente det var «kvalifisert sannsynlighetsovervekt» for at besvarelsen var helt eller delvis generert av KI. Dette er forsettlig fusk, og reaksjonen ble utestengelse i ett år.
Avslørt av standardformulering
I en annen NTNU-besvarelse reagerte sensorene på blant annet faktafeil og manglende referanser. Der sto dessuten en oppfordring om å «sjekke NRKs nettside eller andre pålitelige kilder for oppdatert informasjon etter januar 2022». Dette ligner en standardformulering fra ChatGPT.
Studenten henviste også til episoder av NRK-programmet Folkeopplysningen, men episodene handlet ikke om det hun hevdet. Studenten nektet for å ha brukt KI-verktøy, men ble ikke trodd. Hun ble utestengt i to semestre.
Påfallende faktafeil
I en sak ved USN uttalte sensorene at bacheloroppgaven hadde «påfallende faktafeil, merkverdige og til tider meningsløse setninger og merkelig ordvalg, samt at flere av internettreferansene ikke var å oppdrive.» Videre var faktafeilene så grove at «de fleste oppegående mennesker med overfladisk kjennskap til emnet som omtales ville reagere på dem».
Studenten innrømmet slurv, men ikke bruk av KI. Personen ble ikke trodd og ble utestengt i to semestre.
I 17 saker ble studentene frikjent for KI-fusk av nemndene.
I tillegg kan saker ha blitt lagt bort og studenter renvasket før de havner i nemndene, men Khrono har ikke oversikt over antallet.
Her er to som ble frikjent:
Feil henvisninger trenger ikke være KI
Sensorene reagerte både på «intetsigende og altomfattende formuleringer» og feil i referanser. Referanser var feil satt opp og viste til ting som ikke var relevant.
For eksempel hevdet studenten ved UiT Norges arktiske universitet at en referanse handlet om steinalderen, men sidene han viste til hadde et helt annet tema.
Nemnda delte seg. Mindretallet mente at henvisninger til bøker som ikke inneholdt det studenten hevdet, underbygger at teksten er KI-generert, og at dette er fusk. Men flertallet la vekt på at utilstrekkelige og uriktige kildevisninger ikke i seg selv er fusk, og at intetsigende og altomfattende formuleringer ikke er et entydig bevis for KI-verktøy.
Språklig forbedring var ikke fusk
I en semesteroppgave ved Universitetet i Stavanger mente sensor at «språket holder et svært høyt nivå̊, at referansene er vilkårlig plassert, og at besvarelsens utforming og innhold indikerer at studenten har benyttet en kunstig intelligens-verktøy (KI).»
Emneansvarlig kjørte også besvarelsen gjennom en såkalt KI-detektor, som mente det var 91 prosent sannsynlighet for at teksten var KI-generert.
Studenten forklarte at hen hadde matet hele teksten inn i ChatGPT for språkvask og for å gjøre den mer akademisk. Studenten refererte ikke til ChatGPT.
Nemnda mente det ikke var sannsynliggjort at studenten hadde brukt ChatGPT til noe annet enn språklig forbedring. Studenten hadde ikke referert til ChatGPT. Men nemnda vektla at UiS sine retningslinjer var uklare på om man må henvise i slike tilfeller.
Vil ha mer skoleeksamener
Professor Fjågesund ser ikke fram til at hans fuskesaker skal behandles.
— Jeg forventer jo at studenten bare sier: «Du kan si akkurat hva du vil, men jeg har faktisk skrevet dette». Så mitt råd til systemet er at vi i det minste må få på plass effektive kontrollrutiner, for eksempel muntlige eksamener hvor det er anledning til å stryke selv en oppgave som har fått A.
— Hva med skoleeksamener?
— Skoleeksamener er den eneste måten vi kan forsikre oss om et minimum kunnskapsnivå. Et av spørsmålene vi diskuterer er: Hva slags grunnkunnskap skal studentene ha, og hvordan sjekker vi det? Hvis du bare kjører hjemmeeksamener, vil du aldri vite.
— Så du tar til orde for mer skoleeksamener?
— Ja, inntil vi har et sikkert system på andre fronter, kan jeg ikke se at det finnes andre systemer. Og jeg må si at jeg litt bekymret, for å si det mildt, at jeg er litt bekymret for et system som ikke med én gang har sagt at vi bare må kjøre på med skoleeksamener for å være sikre.
Han legger til:
— Men jeg skjønner jo at ingen institusjoner ønsker å være først i køen for det. For karakternivået vil jo gå ned.
— Har ikke kontroll
Han har ikke inntrykk av at universiteter og høgskoler har kontroll.
— Alle de jeg har snakket med i forbindelse med sakene jeg har nå, erkjenner at de ikke har kontroll. De har samme bekymring som meg, nemlig at de føler at de ikke er trygge på hva de leser. For meg er det noe av det nifseste et utdanningssystem kan finne på, nemlig å gi vitnemål på et usikkert grunnlag.
Viserektor: — Ikke dramatiske tall
Viserektor for utdanning Bjørn Stensaker ved Universitetet i Oslo, hvor 11 studenter er blitt felt for KI-fusk det siste året, virker ikke like bekymret.
Om antallet fuskesaker, sier han:
— Tallene er ikke dramatiske, men veksten i antall saker viser jo at det må jobbes systematisk med dette feltet fremover.
Han mener det er viktig å ha ulike typer eksamensoppgaver, og ikke bare ha hjemmeeksamener.
— Hvor mye av den ulovlige bruken av kunstig intelligens tror du man oppdager?
— Det er ikke godt å si. Det er vel sånn som med all fusk, at det ikke er alt som blir oppdaget. At det er mørketall, er vel ikke umulig, sier Stensaker.
— Føler dere at dere har kontroll på dette, eller er dere mer i villrede?
— Jeg tenker at vi har en bevisst tilnærming til hvordan vi skal jobbe med dette framover. Det handler om opplæring, trening, informasjon og å engasjere studenter og ansatte i disse spørsmålene.
— Men hva skal en sensor gjøre hvis han eller hun får sterke mistenker om at en tekst er generert av ChatGPT, men ikke kan bevise det?
— Hvis man har sterke mistanker, må man ta affære og skrive en rapport der en forsøker å dokumentere sine mistanker. Så vil de vanlige rutinene etter hvert inntre.
— Men svulstig språk og generiske formuleringer hadde ikke holdt som bevis i en rettssak?
— Nei, men hvis det er veldig svulstig språk og mangelfulle referanser, som ikke har noe med oppgaven å gjøre, så er vel det en stryk. Hvis oppgaven er så elendig at den ikke svarer på noe av det man spør om, får man stryke, da. Det er derfor man har sensorer, sier viserektoren.
Endringslogg:
5. august kl. 11.20: Presisering av at det er funnstedet/undersøkelsene Fannrem i Orkland som sensorene mente at virket oppdiktede, ikke selve stedet.
5. august kl. 09.52: Sitatet til Bjørn Stensaker, om at tallene ikke er dramatiske, er noe endret. Endringer gjort i en sitatsjekk kom ikke med i en tidligere versjon av artikkelen.