CRFsuite 学习: CoNLL 2000 shared task

本文介绍了如何使用CRFsuite工具完成CoNLL2000 chunking任务,包括下载语料、生成特征矢量文件、训练模型及测试过程,并讨论了输出结果中的评估指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://www.cnts.ua.ac.be/conll2000/chunking/下载了CoNLL 2000 shared task的训练和测试语料。
http://www.chokkan.org/software/crfsuite/下载了 Win32 binary文件,无需编译,直接使用。
注意,从 http://www.chokkan.org/software/crfsuite/下载的 Source package自带的chunking.py已经定义本任务的的特征矢量的模板。
在win10命令行下,运行以下命令生成CRFsuite规定的特征矢量文件:
<train.txt  Python chunking.py  >> train.crfsuite.txt
根据 http://www.chokkan.org/software/crfsuite/tutorial.html在win10下训练和测试,命令如下:
crfsuite learn -e2 train.crfsuite.txt test.crfsuite.txt

遗留问题:
1. 一边训练一边测试的输出(crfsuite learn -e2 train.crfsuite.txt test.crfsuite.txt)的结果如下,但不清楚什么是Item accuracy和Instance accuracy。
Macro-average precision, recall, F1: (0.604705, 0.576296, 0.581536)
Item accuracy: 45468 / 47377 (0.9597)
Instance accuracy: 1176 / 2012 (0.5845)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值