法律文件中的实体识别:概念与命名实体的探索
在法律领域,准确识别和提取文件中的概念与命名实体对于信息检索、知识发现等任务至关重要。下面将详细介绍相关的实验设置、结果及评估。
1. 法律概念识别
1.1 实验设置
- 文档表示 :采用词袋模型来表示文档,将所有数字映射为同一个标记,并使用归一化到单位长度的tf - idf加权函数。tf - idf对文档d中单词$w_i$的权重计算方式为:
$tf - idf(w_i, d) = tf(w_i, d) \ln\frac{N}{df(w_i)}$
其中,$tf(w_i, d)$是单词$w_i$在文档d中的词频,$df(w_i)$是单词$w_i$出现的文档数量,N是文档集合中的文档总数。 - 分层交叉验证 :将原始数据集划分为k个子集(这里k = 10),每个子集的类别分布与原始数据集大致相同。每次选取一个子集作为测试集,其余k - 1个子集组成训练集,构建模型并应用于测试集,此过程重复k次。随着k的增加,估计结果的方差会减小。
- 性能度量 :分析正类的精确率、召回率和F1度量。对于每个性能度量,计算前十个类别的微观和宏观平均值。
- 精确率 :正确分类的文档数(真正例)除以分类到该类的文档数(真正例 + 假正例)。
- 召回率 :正确分类的文档数(真正例)除以属于该类的文档数(真正例 + 假负例)。
超级会员免费看
订阅专栏 解锁全文
1115

被折叠的 条评论
为什么被折叠?



