The Factuality of Large Language Models in the Legal Domain

Abstract

本文研究了 LLMs 在法律领域作为知识库的可行性：

（1）作者设计了一个包含多种关于案例法和立法的事实性问题的数据集；

（2）通过精确匹配、别名匹配和模糊匹配等方法评估了多种 LLMs 在处理这类问题上的能力，发现：使用别名和模糊匹配时，模型的表现显著提高；

（3）作者发现，在法律文档上进行预训练的模型（SaulLM）可以将事实性准确度一定程度上提升。

Introduction

相比于 KBs，LMs 一方面可以存储更多的事实，另一方面可以直接用自然语言去查询，大于10B参数量的 LLM 可以存储维基百科中的所有知识并支持用自然语言去查询，但是准确度可能对短语的改变产生很大的影响。

虽然当前的 LLMs 都表现出很好的 LM-as-KB 的特性，但是幻觉问题也很严重，特别是在于一些特定领域中（因为会有一些只存在于这个领域的专有名词），本文通过允许大模型在不确定的时候不作答来减少幻觉问题。

本文处理了四个问题：

（1）所有LLMs都同样受到基于精确匹配的评估方法的局限性的影响吗？还是有些受到更严重的惩罚？

（2）LLM 能否避免生成错误的答案？

（3）few-shot 是否能提高LLMs的准确性？

（4）对法律文件进行训练能提高LLM的准确性吗？

Dataset

虽然很多现实生活中的请求不再关注原子信息（案件管辖权或立法等），但是首先需要确定LLM不会弄混一些原子信息，否则后面涉及到的法条、例子都会出错，原子信息是基石；
本文利用维基百科上的内容，挑选出了法律相关内容，构造了8920条问答对：

Models

为了保护个人信息隐私，作者没有调用api，而是用本地部署的模型进行测试和训练 Gemma-2B, Gemma-7B, Llama-2-7B,Llama-3-8B, Mistral-7B, Phi-3-min-4k，RecurrentGemma-2B，还测试了SaulLM（Mistral-7B fintuned on legal corpora）。

Prompt Strategy

采用zero-shot和few-shot，并且允许模型回答：我不知道
每一个问题\(q\)都被严格归类\((s,r)\)，\(s\)表示类别，\(r\)表示关系，比如下面这个例子： \(s\)指的就是legal cases，\(r\)指的则是majority opinion of

Evaluation methods

本文模仿LM-as-KB的评估指标，定义了：

\[P_{LLM} = \frac{|correct answers|}{|answered questions|}\]

\[R_{LLM} = \frac{|correct answers|}{|all questions|}\]

但是由于大模型的倾向：更想回答较长或者冗余的答案，如何判断回答的“正确性”很重要：

（1）Exact matching：回答和标答完全一致

（2）Alias matching：回答是标答的别名

（3）Fuzzy matching：回答包含标答或者表达的别名

Results

alt text * 使用AM和FM时的准确率会大EM * Few-shot可以显著提高准确率 * 如果允许弃权，回答的准确率也会提高

有意思的是，即使不用few shot教模型说 I donnot know，模型也会自己选择弃权

in-context examples会提高LLM的精度

Conclusion

performance of LLMs improves significantly when using alias and fuzzy matching
Abstaininstructions and few shot prompting increase factuality
Pre-training on legal documents substantially improves the precision, highlighting the importance of domain-specific pretraining.

Tips

我查了Wiki后发现，他们的数据确实是从Wiki上爬去和收集的：

本页面最近更新：，更新历史
发现错误？想一起完善？在 GitHub 上编辑此页！
本页面贡献者：OI-wiki
本页面的全部内容在协议之条款下提供，附加条款亦可能应用