日本与外国法律相似条款映射研究
在跨国商业活动中,了解外国法律至关重要。比较本国法律与外国法律的相似条款,能简化对异同点的理解。但专家在映射相似条款时面临诸多挑战,如语言差异、潜在组合数量多、需考虑文本及社会背景等。本文旨在开发一种自动映射比较法研究中相似条款的工具。
1. 相似文档搜索
将映射相似条款视为相似文档搜索,把每篇文章当作一个独立文档。相似文档检索有两种方法:将文档视为单词集合计算相似度,以及通过神经网络获取文档的分布式表示来计算相似度。
- 文档单元 :在映射相似条款时,需考虑以文章还是段落作为基本单元。虽然段落作为文档更有效,但基于初步实验结果,选择文章作为基本单元,原因如下:
- 极短的段落会降低向量化过程中的映射性能。
- 文档数量越多,创建正确数据集的难度越大,因为其计算复杂度为 (O(n^2)),手工操作困难。文章由一个或多个段落组成,所以文章数量小于等于段落数量。
- 两国法律不一定涉及相同主题,很多条款无法相互映射,使用段落作为基本单元过于详细。
- 即使使用段落作为基本单元,也无法解决文档经常超过 BERT 的 512 标记限制的问题。实际上,使用文章作为测量单位也不能解决这个实现问题,因为很多文档即使是单一段落也会超过 512 标记。
- 词袋相似度 :介绍两种使用词袋计算相似度的评估方法。
- Jaccard 系数 :用于表示两个集合之间的相似度,公式为 (Jaccard(A, B) = \frac{|A ∩ B|}{|A ∪ B|})。在相似文档检索中,将每个文档视为一组单词来计算该
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



