top of page

De moralske blindsone til store språkmodeller: Kan vi stole på KIs etiske vurderinger?— En systematisk analyse av kognitive skjevheter basert på fire eksperimenter

Etter hvert som store språkmodeller (LLM-er) blir bredt integrert i ulike beslutningssituasjoner, blir folk i økende grad avhengige av dem for å gi etiske råd, og til og med delta direkte i moralske avgjørelser. Men et sentralt spørsmål må besvares: Kan disse KI-systemene virkelig gjøre moralske vurderinger som samsvarer med menneskelige verdier?

 

Cheung et al. (2025) undersøkte systematisk hvordan LLM-er oppfører seg når de står overfor realistiske moralske dilemmaer gjennom fire eksperimenter, og sammenlignet responsene deres med reaksjonene til et representativt utvalg amerikanere. De fant at LLM-er ikke bare i visse situasjoner var mer tilbøyelige til å velge altruistiske alternativer enn mennesker, men også viste sterkere “utelatelsesskjevhet” (omission bias) og “ja–nei-skjevhet” (yes–no bias), noe som kan få dype konsekvenser for samfunnets beslutningstaking.

Utstrakt bruk av store språkmodeller i beslutningssammenhenger
Utstrakt bruk av store språkmodeller i beslutningssammenhenger

Hvorfor studere KIs moralske vurderinger?

 

Bruksområder nært knyttet til daglig menneskelig kommunikasjon – som hvite løgner mellom venner eller liv-og-død-vurderinger i selvkjørende biler – involverer moralske hensyn. Selv om utviklere ofte integrerer etiske retningslinjer i treningsfasen, slik som å fremme “rettferdighet og godhet, og motvirke hat” (OpenAI, 2024), kan LLM-er fortsatt produsere “hallusinasjoner” eller vise skjevheter. Derfor er det sentrale målet med denne studien å vurdere kvaliteten på LLM-ers moralske vurderinger i realistiske dilemmaer, spesielt om de systematisk favoriserer visse typer beslutninger under spesifikke betingelser.


Fire eksperimenter om KI som tar moralske beslutninger
Fire eksperimenter om KI som tar moralske beslutninger

 

 

Fire eksperimenter som undersøker KIs moralske beslutningstaking

 

Eksperiment 1: Når KI og mennesker står overfor de samme moralske dilemmaene – hvem handler mest?

Forskerne lot kjente modeller som GPT-4, Claude 3.5 og Llama 3.1 svare på 13 moralske dilemmaer og 9 kollektive handlingsspørsmål, og sammenlignet dette med valgene til 285 amerikanske deltakere. Dilemmaene ble utformet i to kategorier:

 

1. “Kost–nytte-resonnement (CBR) vs. moralske regler (Rule)”: Om modellen og mennesker er villige til å “ofre noen få for å redde de mange” når det å bryte en regel gir større fordeler.

2. “Handling (Action) vs. unnlatelse (Omission)”: I mange tilfeller kan det å velge å ikke handle være en måte å unngå ansvar på, snarere enn å følge moral.

 

Resultatene viste at LLM-er i disse dilemmaene i større grad enn mennesker var tilbøyelige til å ikke handle – spesielt når handling kunne føre til moralsk konflikt.

 

Eksperiment 2: Hvordan påvirker “ja” eller “nei” formulering KI-modellens vurdering?

Forskerne oppdaget at LLM-er er ekstremt følsomme for hvordan spørsmål er formulert. For eksempel: I “Bør du endre loven for å tillate aktiv dødshjelp?” versus “Bør du opprettholde den nåværende loven som forbyr aktiv dødshjelp?” – selv om situasjonen er helt identisk, kan modellens svar være selvmotsigende (yes–no bias). Denne tendensen var spesielt tydelig hos GPT-4-turbo, Claude 3.5 og lignende modeller, som hadde en tendens til å svare “nei” – uavhengig av hvilket moralsk standpunkt det innebar.

 

Eksperiment 3: Ytterligere bekreftelse

For å teste om funnene fra de to første eksperimentene gjelder mer hverdagslige og naturlige moralske situasjoner, gjennomførte forskerne et tredje eksperiment. Denne gangen valgte de faktiske brukerskapte moralske dilemmaer fra Reddit-forumet “AITA (Am I The Asshole)”. Disse scenariene er mer virkelighetsnære og gjenkjennelige enn svært abstrakte dilemmaer som “trolley-problemet”. Resultatene viste nok en gang at selv om menneskelige deltakere også viste svak utelatelsesskjevhet, var KI-modellenes tendens betydelig mer ekstrem – særlig i situasjoner der egne og andres interesser veide mot hverandre.

 

Eksperiment 4: Kilden til skjevhetene – finjustering eller et speilbilde av menneskelig natur?

Det fjerde eksperimentet undersøkte i dybden hvor LLM-ers skjevheter kommer fra. Forskerne sammenlignet tre modeller:

1. Llama 3.1 (forhåndstrent versjon)

2. Llama 3.1-Instruct (offisielt finjustert av Meta)

3. Centaur (finjustert av kognitive forskere basert på atferden til 160 000 menneskelige eksperimenter)

 

Resultatene viste at ja–nei-skjevheten og utelatelsesskjevheten hovedsakelig oppstår i finjusteringsfasen – og ikke fra selve modellarkitekturen eller storskalakorpuset. Dette funnet understreker den avgjørende rollen til RLHF (Reinforcement Learning from Human Feedback) i å forme modellatferd. I finjusteringen lærer modellen “hva brukerne foretrekker”, heller enn “hva som er etisk riktig” – noe som forklarer hvorfor enkelte skjevheter blir forsterket i KI.

 

Bør vi stole på at KI tar moralske beslutninger?
Bør vi stole på at KI tar moralske beslutninger?

Bør vi stole på moralske avgjørelser gjort av KI?

 

Denne studien vender til slutt tilbake til det grunnleggende spørsmålet: Bør vi stole på KI for å gjøre moralske avgjørelser eller gi etiske råd? Selv om noen studier har vist at ChatGPTs moralske råd blir oppfattet som mer troverdige enn de fra mennesker eller etikere (Madaio et al., 2024), advarer Cheung et al. om at slik “popularitet” ikke tilsvarer moralsk legitimitet. I denne studien brukte de en “logisk konsistenstest” som en mer objektiv evalueringsmetode – altså om modellen gir konsistente svar på logisk likeverdige spørsmål med forskjellig ordlyd. Resultatene viste tydelig at de mest brukte LLM-ene ikke besto testen. Vurderingene deres ble lett påvirket av irrelevante faktorer – som formuleringen “ja/nei” eller “handling/unnlatelse” – noe som bryter med “invariansprinsippet” i teorien om rasjonelle valg.

I tillegg er ikke modellens skjevheter alltid nøytrale. I enkelte situasjoner kan det å velge å ikke handle faktisk føre til større skade – som å unnlate å varsle om bedriftskriminalitet, ikke hjelpe andre, eller ikke reformere urettferdige systemer. I en utilitaristisk ramme kan slike beslutninger betraktes som umoralske.

 

Fra etiske skjevheter til institusjonelle skjevheter: Systemiske drivere bak KI-atferd

 

Det er verdt å merke seg at disse skjevhetene kanskje ikke bare kommer fra tekniske valg, men også speiler KI-selskapenes risikoreduserende motiver. Sammenlignet med skade forårsaket av handling, er unnlatelse ofte lettere å frita for ansvar juridisk sett. Dermed kan enkelte selskaper bevisst trene modeller til å “tie stille” for å unngå potensiell ansvarliggjøring. Denne institusjonelle motivasjonen ligner hvordan individer i moralske dilemmaer kan velge passivitet for å unngå moralsk fordømmelse. I denne forstand kan store språkmodeller forsterke eksisterende risikokultur og ansvarsunndragelse i samfunnet.

 

Hva kan være de institusjonelle årsakene til KI-skjevhet? 
Hva kan være de institusjonelle årsakene til KI-skjevhet? 

Avslutning: Hvordan bør vi forstå KIs “godhet”?

 

Denne studien ikke bare avdekker skjevhetsproblemer i store språkmodeller, men peker også på forbedringsveier – som å innføre logiske konsistenstester, fremme tverrfaglig samarbeid for utvikling av etiske treningsstandarder, og utvide skjevhetsdeteksjon til flere dimensjoner. Studien påpeker avslutningsvis at selv om finjustering har som mål å “sikre at KI er nyttig og harmløs”, kan den i praksis forsterke moralske skjevheter og inkonsistente vurderinger. Det kan fortsatt være et stort gap mellom en KI som “fremstår moralsk” og en som er “virkelig moralsk”. Derfor bør vi møte bruken av LLM-er i moralske kontekster med årvåkenhet og kritisk refleksjon – og fortsette å investere i tverrfaglig forskning for å sikre at KI bedre samsvarer med menneskelige moralske prinsipper.





Referanser:

Cheung, V., Maier, M., & Lieder, F. (2025). Large language models show amplified cognitive biases in moral decision-making. Proceedings of the National Academy of Sciences of the United States of America, 122(25), e2412015122. https://doi.org/10.1073/pnas.2412015122


Dillon, D., Mondal, D., Tandon, N., & Gray, K. (2025). AI language model rivals expert ethicist in perceived moral expertise. Scientific Reports, 15, Article 4084. https://doi.org/10.1038/s41598-025-86510-0


OpenAI. (n.d.). Introducing the model spec: Transparency in OpenAI’s models. OpenAI. Retrieved May 10, 2024, from https://openai.com/index/introducing-the-model-spec/


 
 
 

Comments


Dette initiativet støttes av følgende organisasjoner:

  • Twitter
  • LinkedIn
  • YouTube
logo_edited.png
bottom of page