目标:7月把NMT adaptation文章通读下
场景:假设储备了大量新闻领域双语语料,少量科技领域双语语料(或者没有),科技领域单语语料(大量、少量或者没有)的大菜鸟翻译公司,接到一个科技领域的翻译项目。如何使用现有资源去尽可能的把科技领域的翻译做好。
问题:这里的科技领域就是in-domain,新闻领域是out-domain。如何使用数量有限的in-domain parallel corpus和相对丰富的out-domain parallel corpus来更好地提升in-domain translation performance。
论文阅读:
1. A Survey of Domain Adaptation for Neural Machine Translation
https://arxiv.org/pdf/1806.00258.pdf
文章给做了个简单的归类:
1. Data Centric
- Using Monolingual Corpora
- Synthetic Paralle Corpora Generation
- Using Out-of-Domain Parallel Corpora
- Multi-Domain
- Data Selection
2. Model Centric
- Training Objective Centric
- Instance/Cost Weighting
- Fine Tuning
- Mixed Fine Tuning
- Regularization
- Architecture Centric