Vittoria Dentella https://orcid.org/0000-0001-6697-9184 vittoria.dentella@urv.cat, Fritz Günther https://orcid.org/0000-0002-9205-6786, and Evelina Leivada https://orcid.org/0000-0003-3181-1917
Edited by Susan Goldin-Meadow, University of Chicago, Chicago, IL; received June 7, 2023; accepted October 28, 2023
December 13, 2023
120 (51) e2309583120

最近的大型语言模型(LMs)生成的合成语言与人类的自然语言非常相似。这种相似性使人们声称大型语言模型可以作为人类语言理论的基础。由于 LMs 性能的驱动因素并不透明,因此其语言能力的特征仍然模糊不清。通过系统测试,我们证明了 LMs 在某些语言判断任务中的表现几乎是偶然的,同时也揭示了他们的反应缺乏稳定性,而且偏向于 "是 "的反应。我们的研究结果提出了一个问题:LMs 的语言知识是如何被设计成具有人类表现中所不具备的特定特征的。
摘要
人类普遍善于提供稳定而准确的判断,判断哪些是其语言的一部分,哪些不是。大型语言模型(LMs)被认为具有类似人类的语言能力;因此,当被问及一串单词是否符合或偏离其下一个单词预测时,人们期望它们能通过提供稳定而准确的答案来模仿这种行为。本研究通过一系列判断任务,测试 GPT-3/text-davinci-002、GPT-3/text-davinci-003 和 ChatGPT 是否能显示出稳定性和准确性,这些判断任务涉及 8 种语言现象:复数吸引、拟声词、中心嵌入、比较级、侵入性恢复、负极性项目、形容词顺序和副词顺序。对每种现象都测试了 10 个句子(5 个语法句和 5 个非语法句),每个句子随机重复 10 次,每个 LM 共激发 800 个判断(总 n = 2,400 个)。我们的结果表明,语法条件下的准确率高于机会率,而非语法条件下的准确率低于机会率,不同现象下的答案具有显著的不稳定性,而且所有测试的 LM 都存在 "是"-"否 "的偏差。此外,我们没有发现任何证据表明,重复练习有助于模型趋向于最终形成稳定答案的处理策略,无论是准确答案还是不准确答案。我们证明,LMs 在识别(非)语法词汇模式方面的表现与在人类身上观察到的表现形成了鲜明对比(n = 80,在相同任务上进行测试),并认为在目前的发展阶段,将 LMs 作为人类语言理论的动机并不充分。
コメント