忘记了还有一个小点
data.py中建立词表的时候count是从0开始的,但是在统计的时候词表大小vsize=self._count,这样就导致vsize大小比实际单词数少了1个。在embedding的时候,embedding矩阵的大小设置的是[vsize,dim],也比单词数少一个,这样可能导致有个单词找不到,我就出了这样的错:
indice[58]=39997 not in [0,39997)
indice[58]=39997 not in [0,39997)
应该把embedding矩阵大小改为[vsize+1,dim]