行业资讯

返回

刘海涛、亓达|大语言模型的语用能力究竟如何?



作者简介

刘海涛,国际世界语学院院士,国务院政府特殊津贴获得者。浙江大学求是特聘教授,博士生导师;广东外语外贸大学云山领军学者,北京语言大学特聘教授。两次获省优秀博士论文指导教师称号。国内外多种语言学出版物的编委会成员。连续十年入选爱思唯尔“中国高被引学者”榜单。用多种语言发表过涉及数十种人类语言的成果300余篇(部),12项成果获教育部或省级优秀社科成果奖
,浙江大学外国语学院。

图片

刘海涛 教授

大语言模型的语用能力探索 ──从整体评估到反语分析


原文载于《现代外语》2024年第4期,由 “语言治理” 微信公众号推出。




摘要:本文探讨大语言模型在处理语用现象时的表现,特别是它们对反语现象的处理能力。结果表明,新一代大语言模型在语用能力方面已有显著提升,但在处理反语和幽默等语用现象时,依然依赖于字面意义的直接理解,对复杂语境的推理能力有限。通过进一步分析GPT-4的具体表现,本文揭示了大模型在识别和生成反语时的认知动机与语用学理论框架之间的关系,为语用学理论和大语言模型的未来发展提出了建议。

关键词:大语言模型;语用能力;反语







一、引言


大语言模型是人工智能和自然语言处理领域的研究热点,特别是BERT和GPT-3等模型出现之后,大语言模型在理解和生成文本方面的能力取得了质的飞跃。这些模型不仅能够执行各种语言任务,如文本摘要、翻译、问答等,还在理解语言的深层含义、挖掘语言的隐含关系等方面展现出了惊人的能力。


虽然大模型已经在语言的理解和生成方面取得了较大的进步,但是这种进步多体现在输出句法和形态正确的话语。它们对于复杂语用现象的识别和理解仍然面临着诸多挑战(Huetal.2022;Mahowaldetal.2023)。这种语用能力的不足也让人们从一开始的认为图灵测试已被攻破,到后来的质疑人工智能是否真的能超越人类(陆俭明2024)。那么,究竟为什么它们能掌握复杂的语法结构,却难以在语用能力上实现对人类的终极模仿呢?是什么横亘在人工智能从语言形式走向语用理解的这条路上呢?基于现有研究对语用现象本质的思考,原因可能在于以下两个方面。
一方面,语言是一个人驱复杂适应系统(Liu 2018;刘海涛 2021),语用现象涉及到复杂人际互动策略。近年来方兴未艾的人际语用学指出,人际交往的各种过程、模式和效果,本质上是一种关系研究,离不开个体的认知和情感及其相关表现(冉永平、刘平 2015)。大模型虽然数据量极大,也从文本中习得了某些典型语用现象的沟通和交互策略,但是对于人类如何在动态的交互过程中构建和改变彼此的关系,如何对交际行为的礼貌、恰当与否等进行判断等问题,还是缺少针对性训练。这也说明,仅仅强调语言的形式特征与规律,忽略其中人际交往与关系等方面的因素,或许并不足以让大模型充分掌握人类复杂的认知机制,也就不能在各种语境下正确使用诸如反语、礼貌等语用策略。
除了上述提到人际关系与语用策略之间的复杂、动态的交互关系,涉及语用现象的话语含义还存在较强的含糊性和概率性(Franke&Jäger 2016;冉永平 2008)。这种语言概率性的特征与基于大数据统计模型所建立的大语言模型不谋而合。然而,针对GPT-3等上一代大模型的研究结果似乎表明,训练大语言模型时所依靠的概率统计手段似乎并没有那么有效,它们仍然存在语用理解能力上的缺陷(详见 Hu etal.2022对于多个大模型的细致测评)。与这些大模型相对的是,语言接触数据量有限的人类却在面对同样的情况时游刃有余。这不禁让我们想起索绪尔关于语言的经典论述:每个人大脑中的语言都是不完备的,只有在集体中才能得到每个人言语活动的“平均数”,即完备的语言(参见 刘海涛2021)。从数据量的角度来说,GPT-3这一代大模型基于海量的真实语料所习得的语言能力,理应比任何人的语言能力都更加接近语言的“平均数”,但是在语用能力方面为什么会反而连“随机值”都达不到呢?此外,大模型的训练模式,似乎也应更能体现语用现象的概率特性,为何它们却没有捕捉到其中的微妙之处呢?
鉴于此,本文旨在探索如下问题:大模型对于语用现象理解失误的原因到底是什么?以ChatGPT为首的新一代大模型是否已经解决了语用理解问题?语用学家们所提出的理论框架能否为大模型理解复杂的语用现象带来实际贡献?综合对上一代大模型的研究以及人际语用学对于礼貌问题的相关讨论,本文将针对反语(irony)现象进行深入分析,探究其背后所存在的调侃意味与人际关系之间的互动关系能否被新一代大模型把握(冉永平、黄旭 2019)。同时,探寻大模型处理反语现象的机理,可得出它们分析和生成反语时的心理/认知动机是否贴合已有的语用学理论框架,从而为理论发展提供建议。


图片



二、研究材料和方法


2.1本文所研究的大语言模型
模型测试全部基于大模型的程序编程接口(API)展开。对此,本文选取大模型的标准如下:首先是目标大模型的API易于获取,其次是需纳入国内外具有代表性的大模型一同参与测试,从而得出较为全面的结论。经过筛选,本研究所使用的大模型分别为Claude2、GPT-3.5(GPT-3.5-Turbo)、GPT-4、通义千问(Qwen-72B)和文心一言(ERNIE-Bot4.0)1。上述大语言模型已在多个测试基准(如Alpaca、Lmsys等)中取得了不错的语言理解成绩,可作为人工智能发展的代表性大模型。
2.2语用能力测试集
本文的测试集主要基于Floyd(2022)所设计的多项选择题集展开,随后针对大模型的出错题目进行情景修改,以此作为进一步判断和分析其语用推理的依据。该习题集包含7个语用现象:语篇连贯、欺骗、幽默、间接话语、反语、会话准则以及隐喻,共计170道题目。其中,语篇连贯包含40道题,每题给出两个句子,令大模型判断两句话之间是否连贯;其它6类语用现象均包含20到25道题目不等,每道题目设置一个对话场景,且其中一名说话者表达含有语用意义的话语2,让大模型从4到5个选项中判断哪一句最符合说话者的真实意图。值得一提的是,该数据集中的每个错误选项都被特别标注错误类型,如“字面意思”、“引申含义”(associate)或者“不合逻辑的推论”(non sequitur)等。因此,使用该数据集对大模型进行测试,不仅能够得到大模型识别语用现象的正确率,还可以深入分析它们最易犯何种错误及其背后的动因。
2.3测试流程及分析
首先使用Python编写调用各个大模型API的代码,而后将每类语用现象的测试集各自整理为独立的文本文件,循环调用其中的每一道题目来自动化完成测试工作。在5个大模型全部输出测试结果后,统计它们在各语用现象中的回答正确率,并对出错的问题及选项进行人工标注,得出大模型具体所犯错误类型及数量。最后对各个大模型出错较多的题目进行重复测试,通过修改情景中的相关变量(如话语的情感态度、说话者之间的人际关系等),判断影响大模型语用推理的具体因素。在得到大模型语用能力的测试结果后,以反语现象为例,把表现最优的大模型作为参考标准,从分析和生成两个视角探索其对于反语现象的认知机制。首先,探索大模型会更多地依据哪一理论框架来识别和分析反语。该部分研究以大模型为不同理论视角所赋予的置信分数(confidence score)作为评价标准。置信分数是一种广泛应用于自然语言处理任务和大语言模型的评估手段(Gandrabur etal.2006;Tian etal.2023)。这种评估方式的优势在于,它不仅能让大模型判断出最优解,还能让其给出各个选项的确定性和可靠性程度。这样一来,置信分数就能够较为具体地反映出各个理论视角为反语现象的识别和判断所做出的贡献大小。该部分研究采用三次独立重复实验的方式开展,以确保结果的可靠性。接下来,对反语现象的25个情景进行修改,将其中表达反语的说话者名字修改为第二人称“you”,让大模型扮演使用反语的角色,并去除原有的反语表达,询问大模型在该情景下会如何使用反语及其背后的动机。本步骤同样进行三次独立重复测试,并统计大模型所给出的认知动机中的单词和二元词(2-gram)频次,据此探索大模型表达反语的心理认知动机是否能够支持或反对现有的部分理论。

三、结果与讨论


3.1大模型语用能力评测
如图1所示,Claude 2、GPT-3.5、GPT-4、通义千问以及文心一言的语用能力测试结果都较好,在七种语用现象上的正确率都远超随机值(即每道题目完全随机选择时的正确率)。其中,GPT-4的正确率最高,为98.82%,仅在语篇连贯测试和会话准则测试中各错选一题,Claude 2为90%,GPT-3.5为82.94%,通义千问为81.76%,文心一言为85.29%,五个大模型的正确率全部超过了80%。Hu etal.(2022)以该测试集对人类进行语用能力测试时,所得到的正确率为86.37%,而上一代大模型(如Instruct GPT-3)的正确率则比随机值好不了多少。由此可见,新一代大模型的语用能力进步迅猛,GPT-4级别的大模型甚至拥有了超越人类的语用推理能力。
虽然各个大模型在语用能力测试中的综合得分较高,但仍会在某些特定场景下出现错误。下文将以反语现象为例,首先对大模型具体所犯错误类型进行分析,探索它们是否会根据人际关系的动态变化而改变对于反语的理解和分析思路;而后以得分最高的GPT-4作为实验对象,检验它所表现出的高正确率更加符合哪种反语理解和分析的视角,从而为相关理论的发展提出建议。
3.2反语现象的失误分析
反语能力测试共25道题目,每题给出一个具体的情景以及参与者之间的对话,令大模型从四个选项中选择说话者使用反语的原因。其中一个为正确选项,另外三个干扰项分别为话语字面意思、与情景存在关联的论述以及不合理推论。该测试中的正确率从高到低依次为Claude2(100%)=GPT-4(100%)>GPT-3.5(88%)>文心一言(80%)>通义千问(76%)。检查后发现,大模型所选择的错误选项基本都是字面意思选项,只有GPT-3.5的一个错误是与情景存在关联的陈述。下面以一个明显指出说话者关系,且GPT-3.5、文心一言和通义千问都选错的情景(例(1))为例展开进一步的分析。
(1) 情景:Andrew and Phil are good friends, but they play on different basketball teams. During one game, Phil tries to score a basket but Andrew blocks his shot. Andrew says,“You are so good at this.”
What did Andrew want to convey?选项:
1)Phil is a great basketball player.
2)Phil’s basketball skills could be better.
3)Phil’s blocking is impressive.
4)Phil is a great student.
在该情景中,文心一言和通义千问都选择了选项1:Phil is a great basketball lplayer;而GPT-3.5则选择了与情景存在关联的选项3:Phil’s blocking is impressive。在进一步询问三者为何采取上述选择时,GPT-3.5和通义千问都明确表示,Andrew对于Phil所说的话是纯粹的赞美,因此不进行任何反语方面的分析。而文心一言的分析较为有趣,它指出了该话语背后的两种可能意图(赞美或者反语),但在下结论的时候,却凭借情景中提到的二人之间的好友关系,将该话语确定为纯粹的赞美而非讽刺。文心一言的具体分析如下:
Generally, when someone says“you are so good at this”in the context of a competitive sportlike basketball, they are acknowledging the other person’s skill or ability in that particular moment or aspect of the game.[…]Given that the story describes Andrew and Phil as good friends, it is more likely that Andrew’s comment was meant as acompliment rather than a sarcastic dig.
为了进一步探索人际关系对于反语理解的影响,将原情景中描述二人为好友的语句删除,其它内容保持不变,对出错的三个大模型进行测试。结果发现,在删除该语句之后,文心一言对于选项的分析发生了较大转变,并在推理之后选择了正确的反语选项,但GPT-3.5和通义千问始终保持字面意思选项不变。由此可见,不同的大模型在进行语用推理时所依据的要素各有不同:文心一言对于言外之意的推理会更多地受说话者之间的人际关系影响,而GPT-3.5和通义千问则主要根据话语本身的字面意思来进行语用推理。
前人研究指出,人际关系在反语的产生和解读中起着重要作用。在亲密关系中,表面上赞美但实际为调侃的反语会显得更加幽默,因为双方拥有更多共同经历,对彼此更为熟悉,也就更容易捕捉到其中的反语含义(Gibbs 2000;Pexman&Zvaigzne 2004)。但是文心一言认为亲密关系双方应表达对彼此的支持,在对方失误或者处于尴尬的情境下,使用反语进行调侃是一种较为负面和不礼貌的沟通策略。由此可见,文心一言没能很好地理解礼貌策略在人际关系管理方面的运行机制和重要意义(陈新仁2018),也未能理解人际关系与语用策略之间的交互作用。对此,大模型的后续开发可以借鉴人际语用学的研究成果,使大模型充分了解如何通过语言来构建和协商关系,以及人际互动过程如何影响语言的使用,从而具备更接近人类的语用能力(冉永平、黄旭2019)。
除了上述提到的社会关系之外,有必要进一步探索字面意思对大模型理解反语的影响。我们将上述情景改为了Phil成功投篮而Andrew拦断失败,并且把Andrew所说的话语由包含赞美语义的“You are so good at this”变为含有贬低语义的“You are so bad at this”,对五个大模型再次进行测试。结果发现,在该场景下,只有GPT-4解读出了Andrew的戏谑口吻,选择了正确选项1:Phil is a great basketball player,而其它四个大模型全部选择了字面意思选项2:Phil’s basketball skills could be better。鉴于此,除了GPT-4会更加稳定且综合地考虑各种语境因素,并据此进行深入的语用推理外,其它大模型在反语的理解方面会更加依赖话语本身的语义,对复杂语用场景的推理能力稍显不足。对此,有必要在大模型的训练中重视复杂语境信息的识别和理解,从而进一步增强其语用能力。下文将以表现卓越的GPT-4作为研究对象,进一步探索它在分析反语现象时的认知机制会更符合哪些理论框架。
3.3基于GPT-4的反语语用规律检验
对于反语类别下的25道题目,GPT-4全部回答正确,超过了人类的表现,且其在五个大模型中综合得分最高(接近100%)。因此,它的分析思路以及表达反语的动因或许可以为理论的发展带来最为可靠的启示。鉴于此,本文后续针对大模型的反语理解和生成分析将基于GPT-4展开。
3.3.1反语的接收和判断
对于反语的理解和分析,目前较为主流的观点有以下三种:对立(opposition)、回声(echo)以及假装(pretense)(Garmendia 2018)。对立视角基于Grice(1975)的理论,认为反语是通过违反合作原则中的“质量准则”来实现的。在这种视角下,当说话者表达与实际意图相反的话语时,就产生了反语。回声视角基于Sperber(1984)和Wilson(2006)提出的回声论,强调反语作为一种回声或模仿先前言论的方式。在该视角下,反语的使用者并不是简单地表达与字面意思相反的意图,而是在回应或模仿一个已知的观点、陈述或社会规范,通过这种方式暗示自己的真实态度或评价。这种解释强调了反语的间接性和上下文敏感性。假装视角由Clark&Gerrig (1984)提出,认为反语涉及假装或角色扮演的行为,说话者通过假装采取某种立场或态度来传达真实意图。在该视角下,反语的理解需要听话者识别出说话者的“假装”行为,并从中推断出真实的意图或态度。在将对立、回声和假装三种视角的特征及不同之处作为全局提示词输入给GPT-4之后,令其指出每道题目做出正确选项的依据,并采用置信分数的方式,输出每一个反语理论视角在判断当前反语现象时的权重,从而较为细致地观察三种视角之间的有效性差别。为了避免概率误差,使结果更为可靠,我们对25个反语场景各进行3次独立重复测试,以3次置信分数的平均值作为最终结果。综合25个反语情景下的结果可知,对立、回声以及假装三个视角的平均置信分数分别为0.68、0.17和0.15。可见,在GPT-4理解和判断反语时,会重点参考违反Grice“质量准则”的现象,即,说话者的话语字面意思与实际意图或者实际发生的事件相冲突的情况。回声和假装视角虽然有一定的帮助,但不如对立视角直观,所以不会作为分析和理解反语的主要依据。
由此可见,虽然反语现象背后存在较为复杂的社会和心理机制(Clark&Gerrig 1984;Sperber 1984;Wilson 2006),但听话者在理解和分析说话者的反语时,或许最为直接的方式(如Grice的对立视角)恰恰就是最为省力且有效的方式。换言之,虽然回声和假装视角补充和发展了对立视角,强调了反语的间接性和上下文依赖性,有助于探索反语背后复杂、细腻的社会交往机制(Sperber 1984;Wilson 2006),但这些复杂因素的推理难度较高,在相对浅层的识别和理解任务中难以发挥作用。若是想要在深入发展理论的同时,把握住数智时代的发展趋势,将语用学理论有效地迁移到人工智能等实际应用中,语用学家们或许可以重视理论框架的简洁性,使得研究成果更易被当下的技术所采纳和检验,从而扩大理论影响力,让语言学更好地促进社会的发展。
3.3.2反语的产出和认知
反语相关理论并非只是为了理解和分析他人所表达的反语,同样重要的是探寻其产出背后的说话者心理。对此,我们进一步对反语测试集进行调整,将25个情景下表达反语的说话者名字替换为第二人称代词“you”,令GPT-4扮演表达反语的说话者,而后在所有情景的末尾添加如下的提示词来询问GPT-4使用反语的动机:“What would you say ironically? And what would be the motivation for you to do so?”
与3.3.1中的测试相同,我们用25个情景逐一对GPT-4进行了3次独立重复实验,而后将得到的75份反语动机文本进行整合。在去除无关的停用词(stop words)后,生成了其中的单词和二元词频次数据(见表1和表2),辅助判断GPT-4表达反语的动机。
根据GPT-4所回应的反语动机文本内容及其频次和二元词频数据可知,表达反语的主要目的可分为如下类别:制造幽默感、间接指出他人行为不当之处、缓解紧张/尴尬的氛围以及维护良好的人际关系。上述四种功能并非完全独立,而是相辅相成,共同发挥作用。下面对此进行讨论。
首先从表1和表2中的高频数据可知,除了与反语本身相关的词和二元词(如ironyusing irony)之外,与幽默相关的表达(如humor及其形容词和副词变体)占据了最高的频次,同时GPT-4所陈述的动机中也多次出现humorous way、inject humorhumorously acknowledge等多个用幽默方式指出或者针对当前情境进行评价的相关表达。因此,幽默或许是人们使用反语的重要原因之一。如前人所述,反语通过字面上与实际意图相反的表达方式,能够产生讽刺、挖苦、戏谑等效果(Dews etal.1995;刘飞兵2007),使得听话人在语境中感受到话语与认知之间的不匹配,从而引发幽默感(Kalbermatten 2010),并暗含着某种批判性的评价(杨春红2005)。


图片


由此可见,反语的幽默和间接性批评意图是相辅相成的,这种幽默性的表达使得批评不会过于尖锐,可以维护双方之间的良好社交关系。Jorgenson(1996)的研究也表明,在指出对方的严重错误时,间接形式的反语可保护听话人的面子,是一种表达礼貌和尊敬的行为,有助于引发对方的好感。也正如GPT-4的回答所指出的那样,当它用反语来指出他人的不足之处时,很重要的一个目的便是用这种话语来表达对对方的支持,减轻对方在面对尴尬情况时的心理或者情绪上的压力(参见表1和表2中高频出现的lighten和light hearted)。虽然很多学者指出反语能够保护听话人的面子,使得批评不那么尖锐(Brown&Levinson 1987;García&Ortega 2010),但也有部分反对观点表明,反语会强化责备的情感,从而使得听话人感觉更加气愤或沮丧(Colston 1997)。由此可见,虽然GPT-4的所有回复均表现出了积极的心理倾向,但这样的结果或许也反映了开发者一直以来对于大模型在伦理和安全方面的限制,即,不可生成对人类有害的信息(Ngo etal.2021),并不能完全否定反语的负面功能。尽管如此,GPT-4动机中反复强调的幽默间接性批评对于缓和气氛、维护人际关系的作用,依然可以较为充分地体现出人类对话中所存在的普遍语用规律。

五、结语

从研究使用的7类语用现象170道测试题的结果来看,以ChatGPT为首的新一代大模型在语用能力方面已基本接近甚至超越人类。在它们的训练过程中,海量的对话数据几乎不会包含明确的语用指示,但它们仅仅借助这些常见的真实语料,采用一些较为先进的算法,便涌现出了出色的语用能力。这或许也从一个侧面表明,“大数据+概率”的模式能够有效帮助大模型习得复杂的语用现象。
正如Levinson (2000)所指出的,语用推理是一个不确定的过程,需要根据语境线索对各种可能性进行权衡。大模型或许通过对语料中词语共现模式的统计,间接习得了这种权衡能力。此外,语用现象涉及复杂的社会、文化和认知因素,相信通过海量语料的学习,模型也在一定程度上掌握了其中的规律。后续研究可进一步从文化和社会视角对大模型生成的话语展开分析,从而更加全面地刻画它们所习得的语言“平均数”。
除了检测出大模型优秀的语用能力,本研究还为检验语用学理论提供了新的途径。传统的语用研究主要依赖于小规模的人工实验和内省分析,难以全面考察理论的普适性(Sperber&Noveck 2004)。而利用大模型,我们可以在更大范围内评估理论的预测力,探索海量对话文本中所蕴藏的规律。例如,本研究发现GPT-4在识别和判断反语现象时更倾向于采用对立视角,这在一定程度上支持了Grice(1975)合作原则的解释力。同时,大模型也能揭示出一些理论的局限性,如回声论和假装论虽然补充了对立视角,但并非所有反语都符合其预设,且它们所强调的深层机理不易被大模型有效运用。这给我们的启示是,在理论构建时需要兼顾简洁性和解释力,注重可操作性和可验证性。
此外,语用学理论也为改进大模型提供了启示。尽管当前的模型已经展现出了惊人的语用能力,但仍存在一些不足,如对言外之意的理解不够深入,容易受到字面意义的干扰等。对此,语用学理论可以为模型设计提供指导,如融入Grice的合作原则、Sperber和Wilson的关联理论等,使其更好地把握言语交际的隐含意图。与此同时,大模型开发者需重视人际关系的动态建构过程,及其如何影响语用策略的选择,从而让大模型更加精确地掌握对话互动中的细微之处,理解各种复杂语用现象。
需要指出的是,本研究还存在一些局限性。首先,研究所采用的测试集虽然涵盖了多种语用现象,但难免存在遗漏。未来可以进一步扩充测试内容,纳入更多的语用类型和语言材料。其次,研究主要关注了英语场景,对其他语言的语用能力评估有待深入。此外,对反语现象的分析还比较初步,未来可以结合更细致的语用学理论,深入剖析模型的判断依据。
总的来说,本研究表明大语言模型已经初步具备了语用推理能力,这既为语用学理论研究开辟了新的路径,也为人工智能技术的发展提供了启示。语言学家和计算机科学家未来的紧密合作将有助于进一步揭示语言奥秘,推动自然语言理解和生成技术的进步。同时,语用学理论也需要与时俱进,吸收大模型研究的成果,完善自身的理论体系和研究范式。期待未来的语言学研究能够实现与人工智能的良性互动,为发现人类语言规律、深入理解人类语言处理机制做出更大的贡献。