Re35:读论文 ArgLegalSumm: Improving Abstractive Summarization of Legal Documents with Argument Mining

本文是2022年COLING文章,关注法律文档的生成式摘要任务。提出ArgLegalSumm方法,对句子进行role labeling识别arguments,用seq2seq预训练模型生成摘要。使用Canadian Legal Information Institute的数据做实验,对比多种基线模型,还考虑了不同实验设置并进行模型分析。

诸神缄默不语-个人优快云博文目录

论文名称:ArgLegalSumm: Improving Abstractive Summarization of Legal Documents with Argument Mining
论文下载地址:https://aclanthology.org/2022.coling-1.540/
官方GitHub项目:GitHub - EngSalem/arglegalsumm

本文是2022年COLING文章,作者来自匹兹堡大学。
本文关注法律文档的生成式摘要任务,解决方案是对句子进行role labeling,识别出arguments,然后使用seq2seq预训练模型实现摘要生成。

(附件部分还没有写)

1. Motivation

address their argumentative nature(我也不知道这啥意思,反正就是说这一点很重要)
因此使用argument role labeling,从法律文本中抽取argument roles

相关课题:
argument mining:将文本的argumentative structure表示为图结构(包含argument roles及其之间的关系)
抽取argument units→分类units的argument roles→检测其间的关系
通用域常用类别:claims, major claims, and premises
法律文档中的IRC taxonomy:Issues, Reasons, and Conclusions

以前典型使用argument mining结合摘要生成的方法:抽取;把argument graph线性化为文本格式

2. ArgLegalSumm方法

在这里插入图片描述
(两部分是解耦的)

用special marker tokens(句子级别)
测试不同粒度的效果(2 markers & 6 markers):
在这里插入图片描述

用contextualized embedding-based techniques实现句子级别的分类:BERT RoBERTa legalBERT(最后选择用legalBERT,因为效果最好)

3. 实验

3.1 数据集

数据获取自Canadian Legal Information Institute (CanLII)

文本:1262个法律案例-摘要对,8-1-1划分数据集
最长26k单词:使用Longformer等可以编码长文档的模型

Issues (legal questions which a court addressed in the document)
Reasons (pieces of text which indicate why the court reached the specific conclusions)
Conclusions (court’s decisions for the corresponding issues)

在这里插入图片描述
(这个比例证明摘要中arguments更重要,所以本文的motivation有效,细节略)

3.2 主实验结果

argument role detection部分:
在这里插入图片描述

摘要生成部分:
在这里插入图片描述

3.3 baseline

抽取式摘要模型:无监督学习,BERT+K-Means(靠近质心的句子)1

生成式摘要模型

  1. Vanilla BART-Large
  2. Vanilla LED-base

3.4 实验设置

本文考虑了2种setting:人工标注argument roles(oracle)和预测argument role labels(predicted)

3.5 模型分析

在这里插入图片描述

用人工抽取的arguments句子作为真实摘要标签:
在这里插入图片描述


  1. When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset ↩︎

谨慎优化器(Cautious Optimizers)是一类改进的基于动量的优化算法,其核心思想是通过引入一种保守的更新机制来提升训练过程中的稳定性和收敛速度。这种方法已经在多个实际应用中得到验证,例如 C-AdamW 和 C-Lion 等优化器[^1]。 这种改进的核心在于对原始优化器的更新规则进行微小但有效的调整,通常可以通过一行代码实现。以 **C-AdamW** 为例,它在标准 AdamW 的基础上添加了一个额外的约束项,使得参数更新更加保守,从而避免了梯度噪声带来的不稳定性和震荡现象。具体来说,这一行代码可能涉及到对动量项或参数更新方向的修正。 以下是一个简化的伪代码示例,展示如何在 PyTorch 中实现类似的一行修改: ```python # 假设 optimizer 是一个已经定义好的 AdamW 实例 for group in optimizer.param_groups: for p in group['params']: state = optimizer.state[p] # 添加一个额外的约束项 epsilon * grad 来实现更稳定的更新 p.data.add_(p.grad, alpha=-group['lr'] * (1 + 0.01 * p.grad.norm())) ``` 在这个例子中,`p.data.add_()` 函数用于更新模型参数,其中 `alpha` 参数被修改为包含一个与梯度范数相关的项 `(1 + 0.01 * p.grad.norm())`,这代表了对更新步长的一种调节方式,使得更新更加“谨慎”。这样的修改可以在不显著增加计算开销的情况下,提高训练效率和稳定性[^2]。 对于 **C-Lion**,其改进思路类似,但可能侧重于不同的优化目标,如进一步减少内存占用或加速收敛过程。具体实现细节可能会有所不同,但总体上仍然遵循“一行代码”的原则,即通过对现有优化器逻辑进行最小化改动来获得性能提升。 需要注意的是,尽管这些方法被称为“一行代码”改进,但在实际部署时仍需仔细调整超参数,并确保与整个训练流程兼容。此外,在某些框架中,直接修改优化器内部状态可能需要一定的工程技巧,因此建议参考官方文档或相关论文获取更详细的指导[^1]。 ### 相关问题 1. C-AdamW 和标准 AdamW 在数学表达式上有何区别? 2. 如何评估谨慎优化器在不同模型上的有效性? 3. C-Lion 是否支持分布式训练环境?如果支持,如何配置? 4. 使用一行代码改进优化器是否会影响反向传播的数值精度? 5. 谨慎优化器适用于哪些类型的深度学习任务?是否有适用范围限制?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸神缄默不语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值