publisering 

Bruken av disse ordene har eksplodert etter ChatGPT

Ti prosent av forskningsartiklene publisert i år, vil være skrevet ved hjelp av ChatGPT, viser studie. Professor tror det reelle tallet er mye høyere. 

Mann med hvit skjorte og jakke stående foran store datamaskiner med masse ledninger og blått lys.
Forskere har tilsynelatende blitt mye mer glad i noen ord, etter at ChatGPT kom. Professor Morten Goodwin ved Universitetet i Agder sier: — Det har nok litt å gjøre med hvordan språkmodellen er trent. Dette er jo ord som brukes mye i litteraturen generelt, men som ChatGPT plukker som viktige ord, og som da blir enda viktigere. Så det blir en selvforsterkende løkke.
Publisert Sist oppdatert

Professor i kunstig intelligens (KI) Morten Goodwin bruker ChatGPT daglig, blant annet for å få hjelp til å skrive vitenskapelige artikler.   

For eksempel kan han lime inn artikkelens sammendrag, og spørre om det er noe som mangler eller kan skrives bedre.

Da kan ChatGPT si at resultatene fra forskningen hans ikke kommer så godt fram, og komme med forslag. 

— Da prøver jeg å ikke kopiere direkte, men blir i hvert fall inspirert av måten å skrive på, forklarer Goodwin ved Universitetet i Agder. 

Dette skjedde etter ChatGPT

Forskere bruker ChatGPT flittig i artikkelskrivingen, skal vi tro en ny studie. Den er foreløpig ikke ferdig fagfellevurdert, men lagt ut i databasen arXiv.

ChatGPT-bruken påvirker også språket i artiklene. ChatGPT-bruk gjør at noen ord forekommer langt oftere i vitenskapelige artikler enn de ellers ville gjort, ifølge studien

Forskerne fra Universitetet i Tübingen i Tyskland og Northwestern University i USA har analysert sammendragene («abstractene») til nesten alle de engelskspråklige artiklene — 14,2 millioner — tilgjengelig på PubMed, en søkemotor for biomedisinsk forskning i årene 2013—2024.

Noen historiske hendelser har gjort store utslag på ordvalget i artikler.

Ikke overraskende økte bruken av noen ord betydelig under koronapandemien, for eksempel «koronavirus», «pandemic» og «lockdown». Tilsvarende skjedde i forbindelse med ebola-utbruddet i 2014—2016.

Men ChatGPTs inntog står i en særstilling. 

Disse ordene blir plutselig mye mer brukt 

Forskerne har identifisert 829 ord som opplevde en betydelig økning i årene 2013—2024. 

Hele 382 av disse dukket opp de tre første månedene i 2024, og det er grunn til å tro at dette henger sammen med ChatGPT.

Ordet «delves» (undersøke/utforske) ble i 2024 brukt 28,3 ganger oftere enn det man kunne forvente, ut fra hvor hyppig det ble brukt de foregående årene.

Ordene «showcasing» (vise fram) og «underscores» (understreker) ble brukt 10,2 og 10,9 ganger oftere enn man kunne forvente.

Andre ord som har hatt en betydelig økning er «potential» (potensielle), «intricate» (komplisert), «meticulously» (omhyggelig), «crucial» (avgjørende), «significant»(signifikant) og «insights» (innsikt). 

Disse ordene hadde en langt høyere frekvens enn forventet basert på tidligere års data.

Her er en figur fra artikkelen, som viser hvordan forekomsten av ulike ord har økt. 

 

Illustrasjonen viser hyppigheten av bestemte ord, som "delves", "crucial" og "potential", i sammendragene til vitenskapelige artikler. Årstallene står nederst. "Frequency" viser til hvor hyppig ordet forekommer. En verdi på 0,02 betyr f.eks. at ordet forekommer i 2 % av alle sammendragene det året. Økningen i bruk av de seks første ordene er relatert til ChatGPT. De tre nederste er relatert til Covid-19, ebola og framveksten av en ny teknologi, convolutional neural networks (CNNs). De svarte linjene viser forventet bruk av ordene, basert på hvor ofte de forekom i årene før.

Annen type ord enn tidligere 

Ordene som økte tidligere, for eksempel under covid-pandemien, er nesten bare det forskerne kaller «innholdsord», spesifikke ord relatert til forskningen.

 Eksempler er «respiratory» (luftveier) og «Remdesivir» (et antiviralt legemiddel). 

Men i 2024 er nesten alle ordene som øker mye såkalte «stilistiske ord», som ikke handler direkte om det som forskes på. «Comprehensive» (omfattende) og «notably» er to andre eksempler på slike. 

Den økte bruken av en del slike ord antyder at den språklige stilen i vitenskapelige artikler har endret seg. 

Grunnen til at denne type ord blir mye mer brukt, er at artiklene er skrevet ved hjelp av ChatGPT eller andre store språkmodeller, ifølge forskerne.

Riktignok ble ChatGPT lansert på slutten av 2022, men det har tatt litt tid før forskere begynte å ta det i bruk, og det tar tid å få publisert artikler.

Hvorfor disse ordene?

En av forfatterne, Dmitry Kobak ved Hertie AI Institute ved Universitetet i Tübingen, skriver til Khrono: 

— Dette er det typiske ChatGPT-vokabularet. Akkurat hvorfor ChatGPT fortrekker disse ordene, er ikke helt klart. 

Men mennesker som bruker ChatGPT i jobben, gir tilbakemeldinger til ChatGPT på svarene den gir. Dette påvirker hva slags svar taleroboten gir i framtiden.

— Det er verdt å merke seg at mange av disse jobbene har blitt outsourcet til land med billig arbeidskraft, som India eller Nigeria sier han.

Økte mer enn «pandemic»

I 2021, under covid-19-pandemien, registrerte forskerne 189 ord som hadde hatt en dramatisk økning. I 2024 var det altså 382 slike ord.

Økningen for enkeltord var også større enn ved tidligere hendelser. For eksempel økte bruken av ordet «delves» i 2024 mer enn bruken av «pandemic» i 2020, året da covid-19 ble erklært en pandemi. 

 Professor Morten Goodwin er ikke overrasket over funnene.

— Det er helt åpenbart at veldig mange bruker kunstig intelligens til å skrive «abstrakter» eller store deler av artikkelen. Det betyr ikke at man ber den kunstige intelligensen om å gjøre alt, men at den for eksempel gjør språkvask, sier han.

Om ordene som plutselig har økt i popularitet, sier han: 

— Det er også helt åpenbart at ChatGPT og de andre språkmodellene liker noen ord bedre enn andre.  De som bruker ChatGPT, skriver mye om «potential», «significant» og disse ordene som er litt akademiske, men likevel ikke har så forferdelig mye mening.

KI-hjelp i 10 prosent av artiklene 

Basert på dataene har forskerne regnet seg fram til at minst 10 prosent av alle artiklene fra 2024 mest sannsynlig er skrevet ved hjelp av ChatGPT eller andre språkmodeller.

Professor Morten Goodwin synes det høres ut som et lavt anslag.

— Jeg tror det er mye høyere. Det de oppdager her, er dem som ikke er flinke til å bruke ChatGPT ordentlig. De som virkelig kan bruke det, klarer å få det inn i sitt eget språk.

Dmitry Kobak synes funnene deres gir grunn til bekymring. 

— ChatGPT fungerer faktisk greit til å skrive sammendrag. Men det kan være veldig farlig å bruke det til å skrive «tidligere forskning»-seksjoner, fordi det kan produsere misvisende tekst og finne på referanser. Hvis ti prosent av artiklene bruker ChatGPT til sammendrag, bruker antakelige mange det til andre deler av artiklene også. Og kanskje ikke bare til uskyldig redigering.

Forskjeller mellom land og fagområder

Studien viser også forskjeller mellom fagområder, land og tidsskrifter.

Informatikk var blant fagområdene med størst økning i de såkalte stilistiske ordene, og forskerne anslår at 20 prosent av artiklene var skrevet ved hjelp av språkmodeller. Økologi hadde lavest innslag, fem prosent.

Prestisjetunge tidsskrifter som Nature, Science og Cell hadde relativt lavt innslag av stilistiske ord, som indikerer relativt få KI-genererte tekster, mens mindre prestisjetunge hadde høyere innslag. Mulige forklaringer er at de mest prestisjetunge også er strenge med hva de slipper gjennom, og grundige fagfellevurderinger, ifølge forskerne.

Forskere fra Taiwan, Sør-Korea, Indonesia og Kina ser ut til å bruke ChatGPT mest, mens forskere i Storbritannia og New Zealand minst. Det kan henge sammen med at de som er mindre stødige i engelsk oftere bruker ChatGPT som språkvask. Men forskjeller, både mellom land og fagområder, kan også henge sammen med hvor stort publiseringspresset er.

Slik brukte han ChatGPT 

Morten Goodwin synes i utgangspunktet det ikke er bekymringsfullt at forskere får skrivehjelp av ChatGPT. 

— Men det du kan se, i hvert fall blant litt yngre akademikere, er at du kortslutter tankeprosessen. I stedet for at du selv tenker og ser for deg hvordan et sammendrag skal se ut, så kan det være at noen får ChatGPT til å skrive hele sammendraget for deg. Og da blir det dårlig.

Da Khrono ringte, jobbet Goodwin med en sluttrapport til Forskningsrådet. Til det fikk han hjelp fra ChatGPT.   

Her ser du hva han spurte om, og hva taleroboten foreslo:

ChatGPT foreslo altså setningen: 

«Our methods utilize video-based systems combined with deep learning to detect and analyze activities with exceptional precision and robust interoperability.»

Men «exceptional precision» (ekstrem presisjon) vil ikke Morten Goodwin bruke i rapporten. Det blir for skrytete.

Antakeligvis bruker han setningen ChatGPT har foreslått, men bytter ut «exceptional» med «high», forteller han. 

Powered by Labrador CMS