命名实体识别conll 数据集

博主花费一定费用获取了一个数据集,并决定将其分享出来。经过初步检查,发现数据集中约12%的数据存在一些问题,但其余部分可以正常使用。现提供数据集下载链接及密码。

为啥这种数据集还藏着掖着,花了1块5,现在把资源分享出来

数据集详情

看了一下好像12的数据有问题不能用,其他的应该没问题

链接:https://p去an.ba掉idu.co我m/s/1owyqa_8WIC9v35p174TGag

密码:ilha

 

### CONLL 命名实体识别数据集下载与使用 CONLL 2003命名实体识别数据集是一个广泛使用的基准测试集合,适用于英语和德语的命名实体识别研究[^4]。 #### 英语数据集描述 对于英语版本的数据集而言,该资源由三个文件构成:训练文件(train)、开发阶段评估参数设置的第一份测试文件(testa),以及最终评价性能表现所用到第二份独立测试文档(testb)[^4]。这些文件提供了标注好的文本片段,其中包含了不同类型的命名实体标签,如人名(PER)、地名(LOC)、组织机构名(ORG)等。 #### 德语数据集特点 值得注意的是,在德语版的数据集中除了上述提到的标准列外还额外增加了一列表达单词原型形式的信息——即词干或基本形态学单位(Lemma),这有助于更深入理解语言特性并可能提高模型效果。 #### 获取途径 为了获取此数据集,可以访问官方发布的链接页面进行下载操作。通常情况下,这类公共资源会托管于学术界认可的平台之上,例如Kaggle或者LDC(Language Data Consortium)网站上也可能找到对应的分发渠道[^1]。 #### 文件格式解析 每个样本记录按照如下方式编码: - 单词占据一行; - 句子之间通过空行隔开; - 每一行为四部分组成,分别代表当前词语本身及其POS标记(Postagged part-of-speech tagger output)、Chunking标志(chunk marker)还有最后NE类别(Named entity label); ```plaintext EU NNP I-NP I-ORG rejects VBZ I-VP O German JJ I-NP I-MISC call NN I-NP O to TO I-VP O boycott VB I-VP O British VJJ I-NP I-MISC lamb NN I-NP O . . O O ``` 这段示例展示了如何利用四个字段来表示一句话中的各个成分及其属性关系。
评论 23
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值