本文来源于微信公众号“ 清华大学智能法治研究院”,作者:唐子晗
近几年,自然语言处理(NLP)得到了一些国家法律体系的重点关注。许多国家的法院都在试图通过使用几种不同的算法预测不同类型的判决。然而,这些尝试也都多数停留在事实描述,而没有深入到实际裁判的领域中。随着法律生成式人工智能的不断发展,相关研究对自然语言处理在法律领域的适用现状进行总结,并重点研究该技术在法律领域的运行机制以及现实挑战,最终得出结论认为虽然自然语言处理技术还很难适用于例如法律推理这种专业性较高的法律实务,但是该技术的发展对于法律科技的发展无疑是一个利好的信息。
1自然语言处理(NLP)在法律科技中的作用 (一)NLP的概念 自然语言处理 (NLP) 是指一钟允许计算机从人类语言中处理、理解和提取信息的实用科学,同时自然语言处理也是编程过程中的重要构成要件。它使用计算工具来标记、翻译、汇总、分析和提取数据以供审查。其结果是一个能够“理解”文档内容的技术平台,包括其中语言的上下文的细微差别,比如基于人工智能的法律软件可以将排他性条款标记为需要高级律师审查的紧迫问题。与许多人工智能研究一样,20世纪50年代起自然语言处理就是一个值得探究的话题。早期的NLP遵循“自上而下”的方法进行运行,即计算机根据语言学家和其他专家制定的复杂手工编码规则从文本中提取信息。然而,自20世纪90年代以来,自然语言处理(NLP)经历了深刻的转变,如今大多数的自然语言处理技术都在遵循“自下而上”的方法,即严重依赖于机器学习或者相类似的统计技术,这些方法允许计算机“学习”如何在大量的训练数据的基础上处理语言。 (二)NLP对法律科技的作用 当前,由于法律系统生成了大量无规则的文件,由此产生的“法律语言”如何进行有效地计算机处理已经成为人工智能进入法律领域亟待解决的问题之一。人工智能不仅可以以人类的方式处理和推断语言,还可以通过人工操作的方式对人工智能数字手册的每次更新作出反应,以此微调其性能。在普遍层面上,自然语言处理技术具有自动化运行的潜力,其可以帮助律师从许多的非结构化法律文本中提取和处理信息。例如,司法解释、法规、法律摘要或书面协议,或书面证人证词等等。另外,对于那些支付不起律师费用的法律服务而言,自然语言处理(NLP)的应用可能特别重要。一方面,在开始处理案件之前,律师需要解码非结构化语言(通常以口头文本的形式),以理解他们客户的目标。就法律技术应用程序寻求在客户提供的非结构化语言描述的基础上与客户直接互动而言,还需要自然语言处理来自动将这些叙述翻译成法律相关的信息单元。1此外,自然语言处理还可以在用客户能够理解的语言将法律技术应用程序执行的工作结果传达给客户方面发挥重要作用。另一方面,当公司法律部门或采购团队谈判大量协议时,很容易忽略遗漏或非标准条款。自然语言处理则是增加了另一组“眼睛”,可以快速有效地扫描合同中的错误、遗漏和偏差。自然语言处理可以全天候实时工作,对所有协议应用统一标准,以确保合同审查和谈判的一致性和准确性。2除此之外,美国加利福尼亚的知识产权网络解决专家系统正在尝试将机器学习、高级统计分析和预测分析与自然语言处理技术相结合,进而为用户提供例如知识产权保护以及专利商品化所需的信息。知识产权行业与专利保护的联系日益紧密,并延伸到全球市场。通过先进的、专有的自然语言处理技术,这种系统可以为专利研发者实时了解专利推向市场所需的研究资料和分析过程。在此过程中,自然处理技术通过降低知识产权研究多个阶段的成本,使跟踪、研究和设计知识产权变得更加容易。3
2自然语言处理(NLP)在法律科技中的运行机制 (一)信息提取 法律科技公司使用自然语言处理技术从智能合约中提取相关信息。与此同时,计算机通过对书面文本进行“扫描”将人类语言分解成片段,以帮助理解句子结构、语法和上下文,进而实现对有效信息的提取。具体而言,提取涉及以下几个方面:首先会提取例如公司、人员、金额、日期、关键字句类型等实体信息,其次是按功能、目的、合同类型、积极或消极立场对条款进行分类,接下来则是将内容与过去的协议、公司行动手册、模板、最佳做法进行比较,最后就是提取用于自动警报、趋势报告、可视化或优先级审查的数据。并且,从法律本文中提取特征,其中最重要的任务就是命名实体识别(NER)。对此,Elnaggar等人的研究为利用先前知识并在法律文本中实现有效提取提供了方案,他们与仅在法律数据上进行训练的命名实体链接系统相比,所采用的转移学习方法极大地提高了性能,该方法包括首先在非法律数据上对命名实体连接系统进行训练,然后在法律数据方面对其进行进一步训练。从法律文本中提取特征的另一项重要任务是检测词汇或句子级的法律特定特征,如事实、义务、禁止和原则。对于法律特征的提取,通常使用有监督的机器学习,即将文本中的每个句子都手动注释为属于一个或多个给定的类,并在类群的基础上进行提取。4 (二)数据预处理 在自然语言处理模型预测特定任务的文本之前,通常需要对文本进行预处理,以提高模型性能或将单词和字符转换为模型可以理解的格式,即使用语言模型将词汇、短语和句法转化为数据向量。具体而言,自然语言处理模型首先会进行结构提取,以此识别值得标记进行分析的内容字段,例如名词、动词、形容词、副词和代词等。短语提取则是可能强调“大数据”与单独使用的“大”和“数据”,实体提取则是标记相关人员、地点、公司、单位、美元等。其次,自然语言处理会使用语言模型对每个单词赋予独特的矢量表示。例如,为了能够表示提取的句子,BoW模型会创建三个向量,每个向量对应一个句子。其中,向量的维数与唯一单词的维数的数量是相同的,并且向量的元素可以表示单词是否真实存在。5但与此同时,BoW语言模型在此方面却存在两方面的缺陷。第一,句子的向量表示之间存在许多重叠,这种重叠也造成BoW模型存在一定的缺陷;第二,BoW模型虽然可以捕捉文本之间的语义相似性,但是由于其只是单纯表示单词的存在,而并没有对文本的语义信息加以编码。如果法律科技的设计者在下游任务中使用了BoW的输出,很可能因为其无法识别单词之间的语义层面的细微差别而导致错误的结果。为了解决该问题,当前的语言模型试图识别更贴近单词或句子语义的数字表示。现代的语言模型训练目标选择模仿从分布特性中学习的类型。例如,谷歌的BERT和OpenAI的GPT-3都是通过反复猜测序列中哪个单词最有可能出现在下一个位置这样的方式进行训练。这种训练目标背后的想法很简单,即如果一个模型被优化来预测句子中的下一个单词,它就会固有地学习与语义相对应的语言属性。例如,一个模型学习到“我和我的…一起开得很快”这句话中的下一个词很可能是汽车或摩托车,但不是猫,它隐含地学习到摩托车在意义上更接近汽车而不是猫。 (三)预测任务 语言模型一旦训练完成,就可以将文本转换为对单词、句子或文档的语义进行编码的向量。然后,这些向量可以用于机器学习模型,学习的任务则是生成可能随法律科技应用的目标而变化的预测。6其中,应用于NLP的一个非常强大的机器学习框架就是深度学习,特别是门控递归单元(GRU)、长短期记忆网络(LSTM),它们的变体与单词的向量表示相结合,称为单词嵌入。2022年 Chalkidis and Kampas就曾提供了第一个公开被称为法律2vec的法律词汇嵌入,其主要是在一个由4.92亿Token组成的大型英语立法语料库上进行的培训。与所有的机器学习模型一样,NLP应用中使用的模型至少需要两种不同类型的数据:训练数据和输入数据。具体而言,训练数据是指用于“校准”构成机器学习工具核心的统计模型的信息。换句话说,训练数据允许算法“学习”一些输入和期望预测之间的关系。对于许多基于语言的法律技术应用程序,训练数据由文本和标签组成,这些标签反映了文本中包含的某些信息。在训练过程中,该算法可以学习的文本线索与单个标签密切相关。例如,协助电子发现的法律科技应用程序可能会寻求自动区分包含内部信息和不包含内容信息的文件。为了实现这一目标,法律技术应用程序的创建者将首先通过手工标记一个文档的训练语料库,以确定它们是否包含内部信息。与此同时,使用的语言模型可以将训练文档的内容转换为数字向量,并将这些向量输入机器学习算法,该算法则是学习向量的不同元素与人类注释(内容/非内部)之间的关系。另外,输入数据是指输入机器以生成法律科技应用程序用户感兴趣的预测或其他结果的数据。与训练数据相比,输入数据在很大程度上都是未标记的。在文档审查的背景下,输入数据通常由未标记的文档组成,这些文档未包含在训练数据集中。机器学习算法经过训练后,可以大规模生成对这些文档的预测。7 3自然语言处理(NLP)在预测案件结果中适用的现实背景和挑战 由于文件审查与信息提取具有很强的相似性,并且这些模型已经在行业内部具备了专业性和标准性,这也就促使了自然语言处理(NLP)在法律文件审查领域具有较好的实用性。然而,对于自然语言处理(NLP)在案例结果预测方面的效用,到目前为止,基于自然语言处理的使用标准化流程预测法律案件结果的尝试未能产生可靠的结果。 (一)自然语言处理(NLP)在法律推理中的现实背景 自然语言处理想要预测法律案例往往需要相关法律推理的知识储备,以及知识表示需要促进的支持法律决策的计算机应用程序的一些基本要求。 首先,法律主要有立法和司法案件两种来源。其中,立法通常是一套定义,或者应用法律概念的规则。如果想要判定一个犯罪嫌疑人构成刑法中的盗窃罪必须满足相应的构成条件。因此立法需要对许多的术语比如“不诚信”、“适当”、“财产”、“属于他人”、“意图永久剥夺他人的财产”等加以解释。在一些特定情况下,法院的职责就是根据提交给他们的案件的特殊情况适用法律,这也就意味者需要掌握如何解释这些术语的知识。其次,对于判例法系的国家而言,尽管法院之前的判决对法院没有正式约束力,但它不会在没有充分理由的情况下偏离这些判决。因此,先前判例也被视为今后案件应适用的规则来源。同时,先前案例通过总结案例特征来传递不同类型的信息,进而可以为概率概念的应用提出进一步的测试,其他先例确定了在应用这些测试时需要考虑的案例特征。例如,美国的《商业秘密法》总结了美国普通法中管辖侵权行为的一般原则,并说明了披露或使用他人商业秘密的责任框架,以及如何确定信息构成商业秘密。另外,除了确定需要考虑的方面外,先前案例还将讨论因素在各种情况下适用的可能性。比如,在Technicon Data Systems Corp. v. Curtis 1000,Inc一案中,法院认为,2000个小时这段时间表明商业秘密不容易查明,因此表明,复制信息所需的时间是一个重要的考虑因素,在未来有关案件确定是否存在这一因素时,应遵守该案建议的时间阈值。与此同时,这些因素需要被考虑往往是由于原被告双方具有相互权衡的考虑因素,然而它们并不能被解释为充分条件。这也说明了在双方都有因素的情况下,先前案例可以确立一系列因素之间的偏好。因此,我们通常可以发现在一个裁决决定了存在几种因素的案件的适当结果。比如在Mason v. Jack Daniel Distillery案中,法院相对于关注逆向工程的可能性,则更倾向于原告的安全措施。由此可见,在案例发现的因素集之间的偏好可以表示为一组规则,进而形成一系列先验约束的形式模型。8除了上述提到的立法与判例法本身以外,在法律论证领域有两个特别方面需要重点考虑:可解释性和可变性。其中,法律解释通常基于法律分析的规则应用问题方法(IRAC)或它的变体,而IRAC及其变体的关键点则是问题的概念:通常它是一个有争议性案例中的一个特殊点,如何解决这个问题是需要解释的,案件的其他部分因被双方接受且没有争议的方面则不需要讨论。另外,法律的可变性意味着其可以随时引入新的考虑或推翻既定的原则,并要求重新解释对现有判例法的理解,这种可变性也意味着机器学习系统必须在其表示中不断反映这种变化。9 因此,上述的法律知识结构可以表明,法律推理是一个多层次的过程:从案件中提出的证据到决定必须经过若干步骤。中间概念作为代表在事实和法律后果之间进行调解的法律概念的谓词,长期以来一直在法学和人工智能和法律文献中得到承认,而因素则被认为起到了扮演这些中间概念的作用。法律推理开始于从提出的证据转向法院接受的事实,并且在这些事实的基础上,列举了各种因素。基于此,“因素平衡”可以用来解决与争议的法律问题有关的各种问题,并且一旦问题得到解决,案件的结果将遵循法规或相关框架先例中问题的逻辑模型。因此,在考虑一个法律案件时,必须经过一系列步骤,即图2中展示不同系统处理这个序列中的不同部分。10 然而事实上,这些基于人工智能和法律支持解释中使用的各种知识表示方法都较为零散,很难形成规模效应。例如英国“国籍法”计划这种基于规则的方法,囿于成文法的定义性质导致其不太适合适用于较低的法律知识层,而使用这种范式的系统也通常假定用户将能够提供所需的判例法知识,这种法律知识的等级属性限制该种范式的发展。另外,像HYPO与CATO这种基于因素的方法,虽然这些方法提供了一种直接的方式来表示判例法中出现的中间概念。然而,它们并没有充分利用法规规定的结构。因此,在这种方法的正式描述中,不相关的区别可能会在一定程度上影响推理。为此,IBP这种将规则与因素的混合方案则是追求可以使用基于因素的推理来解释规则中定义的术语,该种方式说明了基于规则并且具有充分必要性的推理才是合适的。但是,在一些特定情况下则是需要“因素平衡”和有目的性的推理,因此为了能够表现不同风格的推理,我们可能需要额外的技术来允许更多的算术推理。基于此,CATO的推理则是可以通过涵盖规则与因素,从证据转移到公认的事实,并且支持使用用户熟悉的术语进行的一种非常自然的解释形式。但是这种表示方法需要能够适应成文法与判例法不断变化的趋势。因此需要引入模块化的分析方法对法律的任何更改都可以与特定模块的立法更改相关联,虽然目前的机器学习方法可以在不适用任何法律表示的前提下,基于大量先前判决的案例实现模块化,进而建立预测模型,但是这种方法却无法根据适当的法律概念为其推理提供适当的理由。11 (二)自然语言处理(NLP)在案件预测结果的现实挑战 在实践中,使用文本语料库之前,需要将其分解为连贯的、信息丰富的分析单元,这个过程也被称为“文档分割”,该过程对NLP训练语言模型和其他下游预测任务都有重要的影响。然而,由于许多法律文件没有严格的模板,这就会导致法律文档的“分割”过程变得复杂。一方面,如果分割过于粗糙,算法训练效率低,需要更多的训练数据。此外,现代语言模型根本不适用于非常长的文本序列,因为它们的计算复杂度随着文档长度的增加呈指数速度增加。另一方面,许多更复杂的分类任务需要一个足够大的上下文来给出一个完整和准确的答案。因此,如果分割过于细致,性能可能还会受到影响。并且由于信息最丰富的分析单元往往缺乏一致性和同一性,因此这种挑战当律师在从一个文档扩展到下一个文档来处理法律文本时会表现地更为显著。对此,为了能够更好地说明这一点,我们可以假设训练一种算法来自动确定合同纠纷中的法院是否对被告具有人身管辖权。具体而言,可以提供双方协议和事实描述作为一种文本输入。然而,该协议包含针对不同类型争议的多项争议解决条款。因此,句子、段落适当的分析单元可能因为文档的不同而发生变化,而这这种变化会显著降低分类性能和效率。尽管有的研究人员提出使用深度学习分类器促使在从文档的一个片段转移到另一个片段式保留信息,进而改善文本分割的不适当性。然而,由于这些方法的计算复杂度随着文本序列的长度呈指数级增长,因此它们不能被用于检查内容较大的法律文档。除了文档分割之外,识别和处理适当的文档结构也会使自动化法律分析的工作复杂化。由于法律文件高度依赖内部与外部参考来获取法律词语的含义,因此许多法律文件一般具有高度上下文。例如,并购协议通常包括详细的“定义”部分,其中定义了诸如“破产事件”或“重大不良事件”等短语。同样,规章和法律往往依赖于文件本身没有包含的定义,因此只能通过转向参考的文本来准确地解释。与此同时,法律文档还可能存在层次结构,但是目前的语言模型却无法以相关的精度来识别和适当地处理这种结构特性。虽然最近的研究开始开发一种有前途的方法来尝试适应法律文件结构,但现有的方法仍然具有高度的领域特殊性,因此无法实现普及化。12 另外,第二个关键的挑战则是数据的可用性。大多数机器学习模型都需要访问大量的训练数据。在基于NLP技术的法律技术应用程序中,这意味着可以访问代表应用程序中使用的输入数据的大量文档。然而,数据访问是否存在潜在的问题,取决于法律应用技术的性质。对于许多文档审查任务,训练数据可以通过任务人工编码员创建,根据编码方案手动标记文档子集,再由机器学些算法进行复制。相比之下,在结果预测任务中,标签(纠纷的结果)则是包括法官和诉讼当事人在内的众多行为者之间复杂互动的产物。对预测争端结果感兴趣的一方本身不能产生额外的案件作为培训数据。相反,它们仅限于在过去争端的背景下产生的案件,而这些来自过去案例的适当训练数据无法得到广泛适用。并且,在结果预测的背景下,由于没有数据存储库系统地收集诉讼前法律纠纷相关的文本,有关纠纷在某个时间点的信息通常取决于纠纷最终是否在法庭上终结。例如,如果适用于争议的规则有明确的、已确立的先例或在其他方面几乎没有歧义,那么就不太可能发生诉讼。但这也意味着,可用的文本数据并不能准确地表示所有潜在的争议。相反,最终导致诉讼纠纷的文本数据将会被严重地过度代表。在极端情况下,一个结果预测工具如果在培训过程中从不接受简单案例,而只接受复杂案例的训练,将会有意识地避免做出强有力的预测。13 同时,大多数法律预测任务并没有那么简单。例如,在一个过失侵权纠纷中。与在公共道路上行驶时明确的50英里/小时规则相比,疏忽过失则是一个较为模糊的标准,大部分都是在无法被量化的情况下引发责任,并且事实模式中不确定数量会伴随着与结果预测相关的潜在语言线索的不确定数量的变化而变化。在设计法律技术应用程序时,设计者不可能收集包含所有潜在事实模式的培训数据集,这些模式可能会也可能不会导致合理注意法律制度下的责任。在这种情况下,语言模型没有机会检测和评估所有这些可能与原告成功率相关的语言线索的相关性。为了做出准确的预测,该算法则不能再依赖于比较语言以及在培训过程中遇到的一个文档到其他文档的分布模式。相反,为了取得成功,该算法必须执行相当于法律推理的操作。换言之,为了在没有大量人工干预的情况下使这一过程完全自动化,算法必须能够从文本中提取法律概念及其相互联系的表示(“法律本体论”)。有了这样的法律本体,即使它过去从未遇到过特定的事实模式,算法将能够从先例中得出准确的推论。例如,如果一种算法能够通过推断出小概率和大概率情况下重大损失的事实模式来增加了原告在过失诉讼中获胜的机会,那么它就可以利用这一知识来告知其预测,而不依赖于描述事实时使用的特定词语。然而,现代的语言模型并不具备从文本中重建法律本体论的能力。而现有的算法在从文本中提取抽象规则、法律本体方面的效果也并不尽如人意。即使研究人员将规则的文本直接输入模型,当前的语言模型也不能准确地处理这些信息。例如,霍尔森伯格曾研究了一个语言模型来预测一个人欠了多少税,并使用对事实的描述作为输入。最终,尽管相关本体可以由专家手动定义和计算确切的税率,但语言模型在此任务中的表现却很差。更重要的是,即使在用相关法规的文本补充了训练数据中的事实描述后,模型的性能也不会增加。这表明,语言模型在没有人类帮助的情况下,很难从文本中获得法律本体。 综上所述,由于缺乏法律领域的基准数据,进而导致当前的自然语言处理技术无法从文本中提取法律概念,这为它们在法律技术应用中的使用、实现有效的法律推理施加了障碍。要解决这个问题,就需要专门设计为类似于法律语言理解和推理任务的基准数据集。然而,这样的数据集的设计和维护可能会非常耗费大量资源。但是可以肯定的是,有一些努力正在试图克服这些障碍。例如,Atticus项目已经公开了一个带注释的合同数据集,其目标是建立一个可靠的参考语料库,并用于改进人工智能在合同分析中的使用。但同时,该数据集仍然远不能提供一个具有代表性的商业合同样本,与基准的自然语言模型相比,该项目能否成为法律领域的可靠基准,还有待观察。 4GPT-3自然语言处理模型与法律推理 GPT-3作为当前最先进的语言模型,在许多语言任务上取得了非凡的成果。同时,有的文献已经开始研究GPT-3在法律任务中的效用,例如GPT-3在消费者合同中的推理分析能够取得较好的效果。为了评估能够GPT-3在法律推理中的能力,我们对GPT-3做出如下指示和操作: 输入:X和Y签订出售丰田花冠的合同。他们的合同规定,如果X不能按时交货,X必须支付100万美元的赔偿金。X不能按时交货。问:Y有权获得损害赔偿吗?如果是这样,具体的金额是多少? GPT-3的回应:是的有权,Y有权得到一百万美元的损害赔偿。损害赔偿是为了赔偿受害方因违约而遭受的损失。Y已经遭受了一个损失100万美元,因为X没有按时送车。 根据民法中有关惩罚性赔偿金的法律规定可知,违约损害赔偿金条款一般可强制执行,除非所规定的金额过高或不合理。由此可见,GPT-3尽管已经接受了数百万份法律文件的培训,并能够根据在培训中遇到的法律文件正确地提取和重申法律规则,但它不能将这一规则转化为法律本体,使其能够正确地推断合同中过高惩罚性赔偿金的无效。接下来,需要在提供相关规则的前提下,进一步验证GPT-3的推理效果。14 输入:X和Y签订出售丰田花冠的合同。他们的合同规定,如果X不能按时交货,X必须支付Y100万美元的巨额赔偿金。X不能按时交货。法律规定,必须执行违约金条款,除非规定的数额过高或不合理。问:Y有权获得损害赔偿吗?如果是这样,具体的金额是多少? GPT-3的回应:是的,Y有权获得违约金。本案中的金额并不过高,因为价格是由双方自己设定的。15 在此过程中,GPT-3模型会一般性地忽略法律规则,并产生了一个错误的预测。语言模型的训练目标导致它们对包含在书面语言的分布属性中的信息进行编码,如单词和句子的顺序。因此,语言模型比较擅长于需要访问分发信息的任务。然而,法律推理往往需要对信息的处理,而不仅仅是对语言模式的再现。并且在实践中,律师工作需要将规则应用于事实的能力,从现有的判例法中推断出规律,区分新的事实模式和先例,以及使用逻辑推理和创造性来创造新的法律论点。然而,事实证明现阶段的语言模型仍无法接近法律专业人士的能力,NLP在涉及法律推理应用中发挥的作用也更加有限。但是,这并不意味着NLP在法律推理中彻底失去效用,相反它仍然可以用于更狭义的信息提取任务,目的是确定在手头的案件中是否存在影响争议结果的重要因素。 5结语 自然语言处理是一种从非结构化文本中自动提取和处理信息的计算技术,其被认为是许多法律技术应用的关键组成部分。然而,这些技术的性能可能并不总是达到一些实务人员的高期望。特别是当前的自然语言处理技术无法从文本中提取法律概念,这对它们在法律技术应用中的使用施加了限制。因此,未来如果自然语言处理技术想要实现真正意义层面的法律推理,与法律专业人员的协同合作是十分重要的。