The Factuality of Large Language Models in the Legal Domain
Abstract
本文研究了 LLMs 在法律领域作为知识库的可行性:
(1)作者设计了一个包含多种关于案例法和立法的事实性问题的数据集;
(2)通过精确匹配、别名匹配和模糊匹配等方法评估了多种 LLMs 在处理这类问题上的能力,发现:使用别名和模糊匹配时,模型的表现显著提高;
(3)作者发现,在法律文档上进行预训练的模型(SaulLM)可以将事实性准确度一定程度上提升。
Introduction
相比于 KBs,LMs 一方面可以存储更多的事实,另一方面可以直接用自然语言去查询,大于10B参数量的 LLM 可以存储维基百科中的所有知识并支持用自然语言去查询,但是准确度可能对短语的改变产生很大的影响。
虽然当前的 LLMs 都表现出很好的 LM-as-KB 的特性,但是幻觉问题也很严重,特别是在于一些特定领域中(因为会有一些只存在于这个领域的专有名词),本文通过允许大模型在不确定的时候不作答来减少幻觉问题。
本文处理了四个问题:
(1)所有LLMs都同样受到基于精确匹配的评估方法的局限性的影响吗?还是有些受到更严重的惩罚?
(2)LLM 能否避免生成错误的答案?
(3)few-shot 是否能提高LLMs的准确性?
(4)对法律文件进行训练能提高LLM的准确性吗?
Dataset
- 虽然很多现实生活中的请求不再关注原子信息(案件管辖权或立法等),但是首先需要确定LLM不会弄混一些原子信息,否则后面涉及到的法条、例子都会出错,原子信息是基石;
- 本文利用维基百科上的内容,挑选出了法律相关内容,构造了8920条问答对:
Models
为了保护个人信息隐私,作者没有调用api,而是用本地部署的模型进行测试和训练 Gemma-2B, Gemma-7B, Llama-2-7B,Llama-3-8B, Mistral-7B, Phi-3-min-4k,RecurrentGemma-2B,还测试了SaulLM(Mistral-7B fintuned on legal corpora)。
Prompt Strategy
- 采用zero-shot和few-shot,并且允许模型回答:我不知道
- 每一个问题\(q\)都被严格归类\((s,r)\),\(s\)表示类别,\(r\)表示关系,比如下面这个例子: \(s\)指的就是legal cases,\(r\)指的则是majority opinion of
Evaluation methods
本文模仿LM-as-KB的评估指标,定义了:
但是由于大模型的倾向:更想回答较长或者冗余的答案,如何判断回答的“正确性”很重要:
(1)Exact matching:回答和标答完全一致
(2)Alias matching:回答是标答的别名
(3)Fuzzy matching:回答包含标答或者表达的别名
Results
* 使用AM和FM时的准确率会大EM * Few-shot可以显著提高准确率 * 如果允许弃权,回答的准确率也会提高
有意思的是,即使不用few shot教模型说 I donnot know,模型也会自己选择弃权
in-context examples会提高LLM的精度
Conclusion
- performance of LLMs improves significantly when using alias and fuzzy matching
- Abstaininstructions and few shot prompting increase factuality
- Pre-training on legal documents substantially improves the precision, highlighting the importance of domain-specific pretraining.
Tips
我查了Wiki后发现,他们的数据确实是从Wiki上爬去和收集的:
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用