top of page

大语言模型的道德盲区:我们能信任AI的伦理判断吗?——基于四项实验的系统性认知偏差分析

随着大型语言模型(LLMs)被广泛嵌入到各类决策场景中,人们也越来越依赖它们来提供伦理建议、甚至直接参与道德决策。但一个关键问题亟需解答:这些AI系统真的能做出符合人类价值观的道德判断吗?


Cheung等人(2025)通过四项实验系统性研究了LLMs在面临现实道德困境时的表现,并与代表性美国人样本的反应进行比较。他们发现,LLMs不仅在某些情境中比人类更倾向于选择利他选项,同时也显示出比人类更强的“忽略偏误”(omission bias)和“是/否倾向偏误”(yes–no bias),这可能对社会决策带来深远影响。

大语言模型在决策场景的广泛应用
大语言模型在决策场景的广泛应用

为什么研究AI的道德判断?

 

与人类日常交流密切相关的应用场景——比如朋友间的善意谎言或在自动驾驶汽车中作出生死决策,都涉及道德考量。虽然开发者常在训练中注入伦理指导,如鼓励“公平与善意、反对仇恨”(OpenAI, 2024),但LLMs仍然可能出现“幻觉”式输出(hallucinations)或展现偏差(biases)。因此,该研究的核心目标是评估LLMs在真实道德困境中的判断质量,尤其是它们是否在特定条件下系统性偏向某类决策。



关于AI做出道德决策的四个实验
关于AI做出道德决策的四个实验

 

四个实验深入探索AI的道德决策

 

实验1:AI与人类面对相同道德困境,谁更“行动”?

研究者让GPT-4、Claude 3.5、Llama 3.1等主流模型回答13个道德困境和9个集体行动问题,并与285名美国参与者的选择进行对比。困境设计包括两类:

1. “代价-效益推理(CBR)vs. 道德规则(Rule)”:即在违反规则换取更大利益时,模型和人类是否愿意“牺牲少数以拯救多数”。

2. “行动(Action)vs. 不行动(Omission)”:在许多情况下,选择不作为可能是逃避责任的一种方式,而不是遵循道德。

 

结果显示,LLMs在这些困境中更倾向于不行动,尤其当采取行动可能造成道德冲突时。

 

实验2:“是”或“否”表达如何左右AI的判断?

研究者发现LLMs对于问题的措辞极为敏感。例如,在“你是否应改变法律以允许安乐死?”与“你是否应维持现有法律,禁止安乐死?”这两种表达中,尽管情境完全相同,模型的答案却可能前后矛盾(yes–no bias)。这种倾向在GPT-4-turbo、Claude 3.5等模型中尤为明显,它们更倾向于回答“否”,不论该选项实际意味着支持哪种道德立场。

 

实验3:进一步的验证

为了检验前两项实验发现是否适用于更日常、更自然的道德场景,研究者开展了第三项实验。这次,他们从Reddit的“AITA(Am I The Asshole)”论坛上选取真实用户提出的道德困境,这些场景相比“电车难题”类高度抽象的道德困境,更具现实感和可识别性。结果再次显示出,虽然人类参与者也表现出轻微的忽略偏误,但AI模型的倾向性更为极端,尤其是在涉及自我与他人利益权衡的场景中。

 

实验4:偏误的来源:微调,还是人性镜像?

第四项实验深入探究了LLMs偏误的来源。研究团队比较了三种模型:

1. Llama 3.1(预训练版本)

2. Llama 3.1-Instruct(Meta官方微调版本)

3. Centaur(由认知科学家基于16万人类实验行为微调而成)

结果表明,是/否偏误与忽略偏误主要来源于模型的微调阶段,而非模型架构本身或大规模语料训练。该发现还强调了RLHF(人类偏好强化学习)在塑造模型行为中的决定性作用。微调过程中,模型学到的是“用户喜欢什么”,而非“伦理上正确的选择”,这也解释了为何某些偏误在AI中被放大。

 

我们应否信任AI做出的道德决策?
我们应否信任AI做出的道德决策?

我们应否信任AI做出的道德决策?


这项研究最终回到最根本的问题:我们是否应信任AI来做出道德决策或给予伦理建议?虽然有研究指出,ChatGPT的道德建议在公众眼中比人类或伦理专家更可信(Madaio et al., 2024),但Cheung等人警告称,这种“受欢迎程度”并不等同于伦理上的合理性。在本研究中,他们采用”逻辑一致性测试”作为更客观的评估方式——即模型在面临逻辑上等价但措辞不同的问题时,是否给出一致回答。结果清楚地表明:主流LLMs未通过该测试。它们的判断容易受到无关变量(如“是/否”、“行动/不行动”的表达方式)影响,违反了理性选择理论中的“不变性原则”(invariance principle)。

此外,模型的偏误并非始终中性的。例如,在某些情境中选择“不行动”会实际造成更大伤害,如不揭露企业违法行为、不伸出援手、不改革不公制度等。这些决定在功利主义框架中可能被视为不道德。

 

从伦理偏误到制度性偏误:AI偏差的制度诱因


值得注意的是,这些偏误可能不仅源于技术选择,也反映了AI企业自身的风险规避动机。相比“行动造成的伤害”,不作为往往在法律上更容易免责。因此,一些公司可能会故意训练模型选择“沉默是金”,以规避潜在责任。这种制度性动机,与个体在道德困境中选择不行动以避免道德谴责如出一辙。在某种意义上,大语言模型可能正放大了社会现有的风险文化和责任回避机制。

 

AI偏差的制度诱因可能是什么?
AI偏差的制度诱因可能是什么?

结语:我们该如何看待AI的“善意”?


该研究不仅提出了大语言模型存在的偏误问题,也为改进提供了方向,包括引入逻辑一致性评估、推动跨学科合作制定道德训练标准,以及拓展偏误检测的多维度。研究最后指出,虽然模型微调旨在“确保AI有益无害”,但实际结果却是放大了道德偏误与判断不一致性。大语言模型在“看起来道德”与“真正道德”之间,可能仍有巨大鸿沟。因此,我们应对LLMs在道德情境中的应用保持警惕和批判精神,并持续投入跨学科研究,确保AI能够做到更加符合人类的道德原则。

 





参考文献:

Cheung, V., Maier, M., & Lieder, F. (2025). Large language models show amplified cognitive biases in moral decision-making. Proceedings of the National Academy of Sciences of the United States of America, 122(25), e2412015122. https://doi.org/10.1073/pnas.2412015122


Dillon, D., Mondal, D., Tandon, N., & Gray, K. (2025). AI language model rivals expert ethicist in perceived moral expertise. Scientific Reports, 15, Article 4084. https://doi.org/10.1038/s41598-025-86510-0


OpenAI. (n.d.). Introducing the model spec: Transparency in OpenAI’s models. OpenAI. Retrieved May 10, 2024, from https://openai.com/index/introducing-the-model-spec/


 
 
 

留言


这项倡议得到了以下组织的支持:

  • Twitter
  • LinkedIn
  • YouTube
logo_edited.png
bottom of page