Skip to content

The Factuality of Large Language Models in the Legal Domain

Abstract

本文研究了 LLMs 在法律领域作为知识库的可行性:

(1)作者设计了一个包含多种关于案例法和立法的事实性问题的数据集;

(2)通过精确匹配、别名匹配和模糊匹配等方法评估了多种 LLMs 在处理这类问题上的能力,发现:使用别名和模糊匹配时,模型的表现显著提高;

(3)作者发现,在法律文档上进行预训练的模型(SaulLM)可以将事实性准确度一定程度上提升。

Introduction

相比于 KBs,LMs 一方面可以存储更多的事实,另一方面可以直接用自然语言去查询,大于10B参数量的 LLM 可以存储维基百科中的所有知识并支持用自然语言去查询,但是准确度可能对短语的改变产生很大的影响。

虽然当前的 LLMs 都表现出很好的 LM-as-KB 的特性,但是幻觉问题也很严重,特别是在于一些特定领域中(因为会有一些只存在于这个领域的专有名词),本文通过允许大模型在不确定的时候不作答来减少幻觉问题。

本文处理了四个问题:

(1)所有LLMs都同样受到基于精确匹配的评估方法的局限性的影响吗?还是有些受到更严重的惩罚?

(2)LLM 能否避免生成错误的答案?

(3)few-shot 是否能提高LLMs的准确性?

(4)对法律文件进行训练能提高LLM的准确性吗?

Dataset
  • 虽然很多现实生活中的请求不再关注原子信息(案件管辖权或立法等),但是首先需要确定LLM不会弄混一些原子信息,否则后面涉及到的法条、例子都会出错,原子信息是基石
  • 本文利用维基百科上的内容,挑选出了法律相关内容,构造了8920条问答对:alt text
Models

为了保护个人信息隐私,作者没有调用api,而是用本地部署的模型进行测试和训练 Gemma-2B, Gemma-7B, Llama-2-7B,Llama-3-8B, Mistral-7B, Phi-3-min-4k,RecurrentGemma-2B,还测试了SaulLM(Mistral-7B fintuned on legal corpora)。

Prompt Strategy
  • 采用zero-shot和few-shot,并且允许模型回答:我不知道
  • 每一个问题\(q\)都被严格归类\((s,r)\)\(s\)表示类别,\(r\)表示关系,比如下面这个例子: alt text \(s\)指的就是legal cases\(r\)指的则是majority opinion of
Evaluation methods

本文模仿LM-as-KB的评估指标,定义了:

\[P_{LLM} = \frac{|correct answers|}{|answered questions|}\]
\[R_{LLM} = \frac{|correct answers|}{|all questions|}\]

但是由于大模型的倾向:更想回答较长或者冗余的答案,如何判断回答的“正确性”很重要:

(1)Exact matching:回答和标答完全一致

(2)Alias matching:回答是标答的别名

(3)Fuzzy matching:回答包含标答或者表达的别名

Results

alt text * 使用AM和FM时的准确率会大EM * Few-shot可以显著提高准确率 * 如果允许弃权,回答的准确率也会提高

有意思的是,即使不用few shot教模型说 I donnot know,模型也会自己选择弃权

in-context examples会提高LLM的精度

Conclusion
  • performance of LLMs improves significantly when using alias and fuzzy matching
  • Abstaininstructions and few shot prompting increase factuality
  • Pre-training on legal documents substantially improves the precision, highlighting the importance of domain-specific pretraining.
Tips

我查了Wiki后发现,他们的数据确实是从Wiki上爬去和收集的: