python 字典被离奇改变

在自然语言处理任务中,遇到词汇表(vocab)在处理验证集和测试集时自动增长的问题。原因是使用defaultdict初始化vocab时,未见过的词汇会自动添加到末尾,导致词表长度变化。解决方法是修改vocab初始化方式,避免使用lambda函数,以防止未知词汇自动添加。此问题的深入理解有助于优化NLP模型的稳定性和预测一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

vocab 被改变

在做NLP相关任务时,发现一个有意思的问题:

textlines = [[vocab[char] for char in line] for line in textlines ]
# 功能:将句子中的单词转化为单词ID
# textlines: 输入的句子列表 例:[['我','喜','欢','你'],['你','喜','欢','他']]
# vocab: 词表 例:{'我':0,'喜':1,'欢':2,'你':3,'他':4}
# 转换后为:[[0,1,2,3][3,1,2,4]]

一句中,对vocab的操作只是读取字典中key对应的value,但是在验证集和测试集数据执行完后会发生vocab内容发生变化的问题,暂时还没找到原因,猜测是vocab初始化时,为了预留<unk>位置,以如下方式进行的初始化:

vocab = defaultdict(lambda: 0)

导致了在vocab遇到没见过的词时,会自动加入到尾部,所以导致词表长度变化,尝试对此进行修改,问题解决了。

但是为什么会这样还要对lambda函数深入研究,如果大神们有知道的也可以传授一下经验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值