python对数据的一些处理方法

本文介绍了一种从原始文本数据中提取特征并进行数字化处理的方法,包括使用词汇表将文本转换为ID列表,以及将标签映射到数字ID。通过这种方式,可以将自然语言文本转换为机器学习算法可以理解的格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

with open('./cnews/cnews.train.txt', encoding='utf8') as file:
    label_list = [k.strip() for k in file.readlines()]  #去两边的空格
    train_label_list = [k.split()[0] for k in label_list] #标签
    train_content_list = [k.split(maxsplit=1)[1] for k in label_list] #内容
with open('./cnews/cnews.vocab.txt', encoding='utf8') as file:
    vocabulary_list = [k.strip() for k in file.readlines()]
word2id_dict = dict([(b, a) for a, b in enumerate(vocabulary_list)]) #key是word , value是 数字 ,将列表转化为字典
content2idList = lambda content : [word2id_dict[word] for word in content if word in word2id_dict] #一个函数,将文章中的每个字转换成id,返回一个数字的list
train_idlist_list = [content2idList(content) for content in train_content_list] #每个元素代表一行content,是一个数字的list

label2id_dict = dict([(b, a) for a, b in enumerate(set(train_label_list))])
train_labelid_list = [label2id_dict[label] for label in train_label_list]

数据处理,数字化,向量化,建词典

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值