有时候魔改模型或者各种改损失函数等,都收效甚微,不如从数据出发、从bad case出发。
阅读了https://blog.youkuaiyun.com/herosunly/category_9393702.html总结一些以后可以用的trick。
1、NER任务时BIOE标注可能或比BIO标注更好一点,因为增加了更多的特征。
2、在我们使用Bert的时候看数据集是否有些生僻字在bert的词表中没有。
3、假设文本提取需要提取的种类很多or数据不平衡,可以用几个不同的模型进行分别提取。
4、错别字纠正或者用拼音替换。
5、Roberta large或许好一些。
6、在拼接不同特征给bert的时候可以[CLS]+特征1+[SEP1]+特征2+[SEP2]+特征3+[SEP]方式;有些可以先做嵌入再拼接:特征4—>embedding和bert output 进行拼接。
7、对抗训练等其他。
8、选择SOTA模型时尽量选择与自己数据相似的。
9、是否可以借助外部数据集,如一些开源数据等,毕竟数据才是最重要的,魔改模型收益太小。
先到这里。
642

被折叠的 条评论
为什么被折叠?



