textsum源码(三)

本文探讨了在构建词表时容易忽略的一个细节问题:词表计数从0开始,导致词表大小比实际单词数少一。此问题在进行词嵌入时尤为关键,因为错误的词表大小会导致单词索引越界。文章提供了修正方法,即将嵌入矩阵的大小调整为[vsize+1, dim]。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

忘记了还有一个小点
data.py中建立词表的时候count是从0开始的,但是在统计的时候词表大小vsize=self._count,这样就导致vsize大小比实际单词数少了1个。在embedding的时候,embedding矩阵的大小设置的是[vsize,dim],也比单词数少一个,这样可能导致有个单词找不到,我就出了这样的错:
indice[58]=39997 not in [0,39997)
应该把embedding矩阵大小改为[vsize+1,dim]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值