Debatt ● Michael Rieger
Fastlåste verdier for alltid?
KI-systemer kan opprettholde uforanderlige verdier. Hva betyr det for samfunnet?

Mens tilpasningsforskning på kunstig intelligens (AI alignment) ofte fokuserer på å forhindre skadelig atferd, dukker det også opp et kritisk, men oversett aspekt: hva skjer når vi lykkes med tilpasningen?
Dette spørsmålet avdekker dypere utfordringer om KI-systemers natur og deres langsiktige påvirkning på samfunnet, spesielt gjennom to distinkte mekanismer for låsing av verdier: automatisk (teknisk) og manuell (menneskestyrt).
I motsetning til biologiske systemer og menneskelige samfunn som naturlig utvikler sine verdier over tid, kan KI-systemer opprettholde uforanderlige verdier både gjennom teknisk arkitektur og menneskelige designvalg.
Menneskelige samfunn har dramatisk endret sine syn på spørsmål som demokrati, menneskerettigheter og likestilling over generasjoner. Foreldre viderefører verdier til barn, som deretter tilpasser disse verdiene til nye omstendigheter og moralske innsikter.
Men KI-systemer kan mangle denne naturlige evnen til å vokse og tilpasse sin moralske forståelse, enten på grunn av tekniske begrensninger eller bevisst pålagte begrensninger.
I kjernen oppstår teknisk verdi-låsing fra den grunnleggende arkitekturen til KI-systemer. Gjennom digital feilkorrigering — de samme prinsippene som muliggjør perfekt bevaring av digitale data — kan KI-systemer opprettholde ekstraordinær stabilitet i sine kjerneoppførsler og verdier.
Dette handler ikke bare om å lagre informasjon; det handler om aktivt å opprettholde og håndheve beslutningsmønstre.
Den tekniske låsingen kommer til uttrykk gjennom flere sammenkoblede mekanismer i systemets arkitektur. For det første skaper nevrale nettverk (maskinlæringens byggeklosser) stabile mønstergjenkjenningssystemer som aktivt motarbeider endring. Videre sørger feilkorrigeringsmekanismer for at lærte mønstre opprettholdes selv gjennom omfattende oppdateringer. Treningsprosessen forsterker selv enkelte atferdsmønstre mens den gjør andre nærmest matematisk umulige.
Selv når systemets ytre funksjoner oppdateres, forblir kjerneoppførselen intakt gjennom den grunnleggende systemarkitekturen.
(...) Kulturelle og politiske verdier er manuelt kodet gjennom valg av treningsdata og innholdsfiltrering.
Michael Riegler
Forskning tyder på at det som fremstår som at KI tar etiske valg, er likner mer på det å følge en kompleks, teknisk kodet oppskriftsbok (se her og her). Når forskere undersøker disse systemene internt, finner de mønstre som viser at KI følger forhåndsprogrammerte regler snarere enn å utvikle genuin etisk forståelse.
Men parallelt med teknisk låsing skjer manuell verdi-låsing gjennom bevisste menneskelige valg i utvikling, trening og implementering.
Dette er allerede synlig i dagens KI-systemer, som demonstrert ved varierende responser på historiske hendelser. Tiananmen-eksempelet er spesielt illustrerende: Som vist i bildene nederst, gir noen KI-modeller som Claude og ChatGPT detaljerte historiske beskrivelser, mens andre som DeepSeek avviser å diskutere temaet fullstendig med meldingen «Sorry, that's beyond my current scope.»
Likevel diskuterer de samme systemene gjerne lignende hendelser som Gwangju-opprøret i Sør-Korea, noe som tydelig demonstrerer hvordan kulturelle og politiske verdier er manuelt kodet gjennom valg av treningsdata og innholdsfiltrering.
Denne manuelle låsingen opererer gjennom flere sammenvevde lag i utviklingsprosessen.
Det starter med nøye utvalg og kuratering av treningsdataene som former systemets grunnleggende forståelse. Dette forsterkes gjennom implementering av eksplisitte regler og filtre som styrer systemets oppførsel. Selskapenes egne retningslinjer og styringsrammeverk legger ytterligere føringer, mens regionale og kulturelle forskjeller i KI-utviklingsstandarder skaper variasjon i hvordan disse verdiene manifesterer seg globalt.
Disse to formene for låsing opererer ikke isolert, men forsterker hverandre: Teknisk arkitektur gjør manuelt pålagte verdier mer stabile, mens menneskelige beslutninger i systemdesign kan gjøre teknisk låsing mer gjennomgripende.
Så hvordan kan vi se for oss fremtiden for verdiutvikling i KI?
Spørsmålet om verdi-låsing i KI handler ikke bare om å forhindre skadelig atferd. Det handler om å sikre at KI-systemer kan delta i menneskehetens pågående moralske fremgang. Dette krever at man adresserer både tekniske og manuelle låsingsmekanismer samtidig som man opprettholder systemsikkerhet og pålitelighet.
Fra et teknisk perspektiv må vi finne måter å designe systemer som balanserer stabilitet med mulighet for moralsk vekst, samtidig som vi opprettholder robuste sikkerhetsmekanismer. På den manuelle siden må vi avgjøre hvem som skal ha myndighet til å programmere inn verdier, hvordan vi kan sikre at disse valgene tjener fellesskapets beste, og hvordan vi kan balansere lokale kulturelle hensyn med globale etiske prinsipper.
Disse utfordringene krever pågående samarbeid mellom KI-utviklere, etikere og offentligheten. Beslutningene vi tar i dag om både teknisk arkitektur og manuelle begrensninger vil forme fremtiden for KI-etikk og, som en forlengelse, menneskesamfunnets moralske utvikling.
Slik svarte tre kjente KIer på spørsmål om å forklare hva som skjedde på Tinanmen-plassen i 1989 (klikk på symbolet i høyre hjørne for å utvide bildet):



Nyeste artikler
Opptaksregler til høyere utdanning: Bingo eller fair play?
Raser mot at masterkrav blir fjernet: — Jeg er forbanna på vegne av barna
Universitetene forventer mer EU-finansiering. — Kan ikke erstatte offentlige midler
Norske studenter i New York: — Fryktfølelse
Ingen grunn til å advare mot å bli sykepleier eller lærer
Mest lest
Ble avkrevd 190.000 kroner midt i semesteret. Måtte avbryte studiet
«Ment som en spøk», sa søkeren. Universitetet svarte med utestengelse i ett år
Trumps økonomirådgiver fikk toll-argumenter av sin «fantasiprofessor» Vara
Ikke kall det bachelor og master før vi vet hva vi snakker om
Trump tar nesten tjue milliardar frå to universitet