统计NER中的实体标签

本文介绍了一个用于统计命名实体识别(NER)中实体标签的Python脚本。通过读取训练数据,该脚本能够提取并记录所有出现过的实体类型,为后续的模型训练和评估提供便利。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计NER中的实体标签

if __name__ == '__main__':

    with open('./data/resume/train/train.txt', 'r', encoding='utf-8') as f:
        # sum = 270
        list = []
        word_ = ''
        lines = f.readlines()
        for line in lines:

            for i,words in enumerate(line):
                if words.isspace()==True or words == '\t':
                    word = line[i+1:].strip()
                    if word not in list:
                        list.append(word)

    with open('./data/resume/train/train-label.txt', 'a', encoding='utf-8') as g:
        for i in list:
            g.write(i+'\n')

    print(list)
    print(len(list))

    f.close()

数据格式如下:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值