Debatt ● Michael Rieger
Fastlåste verdier for alltid?
I motsetning til biologiske systemer og menneskelige samfunn, som naturlig utvikler sine verdier over tid, kan KI-systemer opprettholde uforanderlige verdier. Hva betyr det for samfunnet?
Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
Mens tilpasningsforskning på kunstig intelligens (AI alignment) ofte fokuserer på å forhindre skadelig atferd, dukker det også opp et kritisk, men oversett aspekt: hva skjer når vi lykkes med tilpasningen?
Dette spørsmålet avdekker dypere utfordringer om KI-systemers natur og deres langsiktige påvirkning på samfunnet, spesielt gjennom to distinkte mekanismer for låsing av verdier: automatisk (teknisk) og manuell (menneskestyrt).
I motsetning til biologiske systemer og menneskelige samfunn som naturlig utvikler sine verdier over tid, kan KI-systemer opprettholde uforanderlige verdier både gjennom teknisk arkitektur og menneskelige designvalg.
Menneskelige samfunn har dramatisk endret sine syn på spørsmål som demokrati, menneskerettigheter og likestilling over generasjoner. Foreldre viderefører verdier til barn, som deretter tilpasser disse verdiene til nye omstendigheter og moralske innsikter.
Men KI-systemer kan mangle denne naturlige evnen til å vokse og tilpasse sin moralske forståelse, enten på grunn av tekniske begrensninger eller bevisst pålagte begrensninger.
I kjernen oppstår teknisk verdi-låsing fra den grunnleggende arkitekturen til KI-systemer. Gjennom digital feilkorrigering — de samme prinsippene som muliggjør perfekt bevaring av digitale data — kan KI-systemer opprettholde ekstraordinær stabilitet i sine kjerneoppførsler og verdier.
Dette handler ikke bare om å lagre informasjon; det handler om aktivt å opprettholde og håndheve beslutningsmønstre.
Den tekniske låsingen kommer til uttrykk gjennom flere sammenkoblede mekanismer i systemets arkitektur. For det første skaper nevrale nettverk (maskinlæringens byggeklosser) stabile mønstergjenkjenningssystemer som aktivt motarbeider endring. Videre sørger feilkorrigeringsmekanismer for at lærte mønstre opprettholdes selv gjennom omfattende oppdateringer. Treningsprosessen forsterker selv enkelte atferdsmønstre mens den gjør andre nærmest matematisk umulige.
Selv når systemets ytre funksjoner oppdateres, forblir kjerneoppførselen intakt gjennom den grunnleggende systemarkitekturen.
(...) Kulturelle og politiske verdier er manuelt kodet gjennom valg av treningsdata og innholdsfiltrering.
Michael Riegler
Forskning tyder på at det som fremstår som at KI tar etiske valg, er likner mer på det å følge en kompleks, teknisk kodet oppskriftsbok (se her og her). Når forskere undersøker disse systemene internt, finner de mønstre som viser at KI følger forhåndsprogrammerte regler snarere enn å utvikle genuin etisk forståelse.
Men parallelt med teknisk låsing skjer manuell verdi-låsing gjennom bevisste menneskelige valg i utvikling, trening og implementering.
Dette er allerede synlig i dagens KI-systemer, som demonstrert ved varierende responser på historiske hendelser. Tiananmen-eksempelet er spesielt illustrerende: Som vist i bildene nederst, gir noen KI-modeller som Claude og ChatGPT detaljerte historiske beskrivelser, mens andre som DeepSeek avviser å diskutere temaet fullstendig med meldingen «Sorry, that's beyond my current scope.»
Likevel diskuterer de samme systemene gjerne lignende hendelser som Gwangju-opprøret i Sør-Korea, noe som tydelig demonstrerer hvordan kulturelle og politiske verdier er manuelt kodet gjennom valg av treningsdata og innholdsfiltrering.
Denne manuelle låsingen opererer gjennom flere sammenvevde lag i utviklingsprosessen.
Det starter med nøye utvalg og kuratering av treningsdataene som former systemets grunnleggende forståelse. Dette forsterkes gjennom implementering av eksplisitte regler og filtre som styrer systemets oppførsel. Selskapenes egne retningslinjer og styringsrammeverk legger ytterligere føringer, mens regionale og kulturelle forskjeller i KI-utviklingsstandarder skaper variasjon i hvordan disse verdiene manifesterer seg globalt.
Disse to formene for låsing opererer ikke isolert, men forsterker hverandre: Teknisk arkitektur gjør manuelt pålagte verdier mer stabile, mens menneskelige beslutninger i systemdesign kan gjøre teknisk låsing mer gjennomgripende.
Så hvordan kan vi se for oss fremtiden for verdiutvikling i KI?
Spørsmålet om verdi-låsing i KI handler ikke bare om å forhindre skadelig atferd. Det handler om å sikre at KI-systemer kan delta i menneskehetens pågående moralske fremgang. Dette krever at man adresserer både tekniske og manuelle låsingsmekanismer samtidig som man opprettholder systemsikkerhet og pålitelighet.
Fra et teknisk perspektiv må vi finne måter å designe systemer som balanserer stabilitet med mulighet for moralsk vekst, samtidig som vi opprettholder robuste sikkerhetsmekanismer. På den manuelle siden må vi avgjøre hvem som skal ha myndighet til å programmere inn verdier, hvordan vi kan sikre at disse valgene tjener fellesskapets beste, og hvordan vi kan balansere lokale kulturelle hensyn med globale etiske prinsipper.
Disse utfordringene krever pågående samarbeid mellom KI-utviklere, etikere og offentligheten. Beslutningene vi tar i dag om både teknisk arkitektur og manuelle begrensninger vil forme fremtiden for KI-etikk og, som en forlengelse, menneskesamfunnets moralske utvikling.
Slik svarte tre kjente KIer på spørsmål om å forklare hva som skjedde på Tinanmen-plassen i 1989 (klikk på symbolet i høyre hjørne for å utvide bildet):