统计NER中的实体标签

最新推荐文章于 2024-12-01 21:46:31 发布

原创最新推荐文章于 2024-12-01 21:46:31 发布 · 456 阅读

0 ·

CC 4.0 BY-SA版权

python编程专栏收录该内容

143 篇文章

订阅专栏

本文介绍了一个用于统计命名实体识别(NER)中实体标签的Python脚本。通过读取训练数据，该脚本能够提取并记录所有出现过的实体类型，为后续的模型训练和评估提供便利。

统计NER中的实体标签

if __name__ == '__main__':

    with open('./data/resume/train/train.txt', 'r', encoding='utf-8') as f:
        # sum = 270
        list = []
        word_ = ''
        lines = f.readlines()
        for line in lines:

            for i,words in enumerate(line):
                if words.isspace()==True or words == '\t':
                    word = line[i+1:].strip()
                    if word not in list:
                        list.append(word)

    with open('./data/resume/train/train-label.txt', 'a', encoding='utf-8') as g:
        for i in list:
            g.write(i+'\n')

    print(list)
    print(len(list))

    f.close()