Plagiering

Så lett er det å lure plagiatkontrollen

Professor Frode Eika Sandnes ved OsloMet har kontrollert programmet som brukes for å avdekke fusk ved landets universiteter og høgskoler.

Professor Frode Eika Sandnes ved OsloMet.
Publisert Sist oppdatert

Frode Eika Sandnes er professor innen teknologi og informasjonssystemer ved OsloMet. Han har også vært prorektor for forskning ved forløperen til OsloMet, Høgskolen i Oslo og Akershus.

FAKTA

Plagiatsystemet Ouriginal

  • Eid av selskapet Turnitin. Tidligere navn Urkund.
  • Sikt - kunnskapssektorens tjenesteleverandør - (daværende Uninett) skaffet rammeavtale i 2016.
  • I dag bruker 27 statlige og private universiteter og høgskoler systemet. 
  • Institusjonene deler database, men må be om innsyn i oppgaver ved andre universiteter og høgskoler hvis de får treff på tekstlikhet, og ønsker å se nærmere på hva det handler om.
  • I januar 2024 kom en ny avtale med Kopinor på plass som gir en bedre database. Men en svakhet er at veldig mye norsk pensum ikke ligger inne.

Kilde: Sikt

Det var en uttalelse fra en fuskekontrollør ved OsloMet som fanget hans interesse. I et intervju med Khrono tidligere i år fortalte Liv Ingunn Bråthen at vanlig praksis på OsloMet er å plukke ut oppgaver til manuell kontroll dersom de flagges med en rød varsellampe, det vil si oppgaver med en likhetsprosent over en viss grense.

Grensen for tekstliket i plagiatprogrammet som de aller fleste universiteter og høgskoler i Norge bruker, Ouriginal, er på 24 prosent.

— Hjemmesidene til Ouriginal gir inntrykk av at vi er i trygge hender. Ouriginal omtaler sitt produkt som en «cutting-edge text-matching and plagiarism prevention solution» basert på «more than three decades of knowledge and expertise», peker Frode Eika Sandnes på.

— Det fikk meg til å spørre meg: Er systemet virkelig så fantastisk som de hevder? Er det likevel mulig å lure systemet? Så lenge den rapporterte tekstlikheten er under den kritiske grensa, blir jo ikke besvarelsene undersøkt selv om de inneholder plagiert tekst.

Gjennomførte tre forsøk

Professoren gjorde et lite eksperiment for å se om det er mulig å «smugle» en tilslørt plagiert tekst gjennom plagiatkontrollen. Han ønsket å bruke enkle metoder uten hjelp av ChatGPT eller liknende, og tok utgangspunkt i et avsnitt på 183 ord fra en doktorgradsavhandling.

— Først bekreftet jeg at teksten resulterte i en tekstlikhet på 100 prosent. Inspirert av velkjente teknikker for å tilsløre tekst fra søkemotormanipulasjon og phishing testet jeg tre fremgangsmåter, forteller han.

Slik beskriver han forsøk én, som handler om å skanne besvarelsen:

— Jeg skrev først ut teksten og skannet deretter utskriften til et pdf-dokument. Da blir all tekstinformasjon erstattet med bilder av teksten (raster). Leseren ser fortsatt teksten uten å fatte mistanke. Når jeg kjører dette dokumentet gjennom Ouriginal, får jeg en grå varsellampe med en advarsel om at dokumentet ikke inneholder tekst. Dette ser jo mistenkelig ut, sier Eika Sandnes, og derfor modifiserte han forsøket noe.

— Jeg gjorde en liten justering der jeg la til et tilfeldig avsnitt på 130 ord etter bildet av teksten. Dette trikset fungerte utmerket. Ouriginal rapporterte 0 prosent likhet uten advarsler. Dokumentet vil derfor ikke bli fanget opp av plagiatkontrollørene. Dersom kontrolløren mot formodning skulle kikke nærmere på den detaljerte plagiatrapporten vil vedkommende kunne fatte mistanke fordi det er kun den tilfeldige tilleggsteksten som vises, forteller Eika Sandnes.

«Lurebokstaver»

Om forsøk to forklarer Eika Sandnes at systemer for behandling av tekst ofte er basert på hele ord. 

— Dersom vi endrer en eller flere bokstaver, blir ordet noe helt annet. En velkjent teknikk er å erstatte bokstaver med andre tegn som til forveksling ser helt like ut (homoglyfer). Det finnes mange slike tegn. Jeg valgte unicode 0435 til å erstatte bokstaven e som forekommer hyppigst på norsk, sier han.

— Jeg bruke «søk og erstatt» i Word til å bytte ut alle e-ene i teksten. Dette ga en tekstlikhet på 0 prosent. Men om vi ser nærmere på den detaljerte plagiatrapporten finner vi en godt bortgjemt advarsel om at det kan være et mulig forsøk på å sabotere plagiatsjekken. I tillegg ble «lurebokstavene» også fremhevet i den detaljerte plagiatrapporten og var dermed lette å få øye på.

Med andre ord oppdaget Ouriginal dette forsøket på fusk. 

— Men, dessverre ble kanskje ikke en lærer gjort tilstrekkelig oppmerksom på et slikt avvik med mindre de aktivt går inn og ser på den detaljerte plagiatrapporten. Slike tilfeller blir ikke oppdaget dersom læreren kun forholder seg til grenseverdier, sier  Eika Sandnes.

Usynlig formatering

Om det tredje og siste forsøket forteller Eika Sandnes at han prøvde å tilsløre den plagierte teksten med usynlige tegn. 

— Plagiatprogrammet vil dermed ikke kjenne igjen ordene. Leseren derimot vil ikke fatte mistanke, sier han.

For å oppnå dette laget Eika Sandnes et enkelt program som delte opp alle lange ord (mer enn 6 bokstaver) med et usynlig mellomrom på et tilfeldig valgt sted i ordet. Disse mellomrommene blir «usynlige» ved å sette tekststørrelsen til 1 punkt.

Ouriginal fant ingen tekstlikheter og ga ingen advarsler. Det er fullt mulig å se mellomrommene i den detaljerte plagiatrapporten (for eksempel «sammensatt» som «sammensatt»), men de er så lite iøynefallende at en travel og uoppmerksom kontrollør antageligvis ikke ville legge merke til dette. Siden en slik besvarelse likevel ikke blir trukket ut, er det i sum usannsynlig at fuskeforsøket ville blitt oppdaget.

Enkelt å lure programmet

Etter it-professor Frode Eika Sandnes sin mening viser eksemplene hans at det er enkelt å smugle en tilslørt plagiert besvarelse gjennom plagiatsjekken til Ouriginal i et kontrollregime med prosentgrenser. 

— Vi kan rett og slett ikke stole på Ouriginals påstander om 0 prosent tekstlikhet.

Han trekker samtidig fram at dersom læreren legger ned mye innsats, er oppmerksom og har tilstrekkelig kompetanse, så er det mulig å finne tegn på juks med Ouriginal. 

— Ouriginal gir oss derimot ingen hjelp med å finne kildene som er plagiert. Uten å ha noe å sammenlikne med er det krevende å utføre videre undersøkelser for hånd., sier Eika Sandnes og spør derfor:

— Det finnes utvilsomt mange andre måter å lure systemet på enn de jeg testet her. Hvordan skal en vilkårlig lærer kunne forholde seg til slike ukjente juksetriks?

— Hvorfor snakker du høyt om disse svakhetene i systemet?

— Det er for behagelig og enkelt å lene seg på enkle prosentgrenser. Da lukker vi øynene for andre avvik. Jeg tror det er viktig at lærere, administratorer og ledere gjøres oppmerksom på slike former for fusk. De fleste er nok ikke kjent med at disse mulighetene eksisterer. Mange har muligens for stor tillit og lojalitet til de systemene de blir instruert til å bruke, sier Eika Sandnes.

Sikt: — Kjente utfordringer

Sikt - kunnskapssektorens tjenesteleverandør, iverksatte anbudsrunden som førte til at mange universiteter og høgskoler for noen år siden valgte systemet og leverandøren Ouriginal som sin løsning for plagiatkontroll.

Nå har Sikt initiert en ny anbudsprosess, som man regner med skal landes i løpet av året.

Khrono har spurt Sikt om Eika Sandnes sine funn, og produktområdeleder for digitalt læringsmiljø Vegard Moen svarer at det til en viss grad er mulig å lure de fleste plagiatkontrollsystemer.

— Det å forsøke å lure plagiatkontrollen er også juks. Vi ønsker ikke å gå inn i detaljer om hvordan et system kan lures, men både Sikt og institusjonene kjenner til varianter av metodene professoren beskriver, sier Moen.

— Forsøk på å lure Ouriginal kan også oppdages, og tjenesten forbedres stadig slik at nye metoder for å skjule tekstlikhet også kan avdekkes. Tekstsammenligning er bare en liten del av arbeidet med å avdekke og motvirke fusk, og det er vårt inntrykk at institusjonene ikke støtter seg for mye på tekstsammenligningsverktøyet alene, sier Moen.

Khrono har spurt leverandøren Ouriginal, nå eid av det amerikanske selskapet Turnitin, om de hullene i systemet Eika Sandnes har avdekket. De har så langt ikke svart på våre spørsmål.

Powered by Labrador CMS