1. 随机删除一些token(字,词,word-piece等); (0.1)
2. 随机将一些token替换成未登录标记(`<UNK>`)(0.1)
3. 随机使用词表中的token替代掉其他的token;(0.1)
4. 随机交换token的顺序;(no further than three positions apart)
5. 随机截断序列(sequence),分为从前截断和从后截断;
6. 随机删除连续的token。
NLP中扩增数据的办法(增加噪音的办法)
最新推荐文章于 2024-05-29 18:53:38 发布