多语言NLP任务中的跨语言迁移与少标签处理策略
1. 数据集与模型分析
在处理基于Wikipedia创建的Wikiann数据集时,我们发现实体标注存在一些特殊情况。例如,部分实体标注包含括号内容,在自动提取标注文档时,括号及其内容也被包含在命名实体中,但通常我们不会将其作为命名实体的一部分。另外,有些括号内包含地理说明,虽然这也是一个位置信息,但在标注时可能需要将其与原始位置分开。
通过简单分析,我们发现模型和数据集都存在一些弱点。在实际应用中,我们需要迭代这个步骤,清理数据集,重新训练模型,并分析新的错误,直到对性能满意为止。
2. 跨语言迁移评估
2.1 评估方法
我们对XLM - R在德语上进行了微调,然后使用 Trainer.predict 函数评估其向其他语言迁移的能力。以下是获取验证集预测结果的代码:
panx_de_encoded["validation"].reset_format()
preds_valid = trainer.predict(panx_de_encoded["validation"])
Trainer.predict 的输出是一个 trainer_utils.PredictionOutput 对象,包含预测数组、标签ID以及我们传递给训练器的指标。例如,验证集的指标可以通过以下方式访问:
preds_valid
超级会员免费看
订阅专栏 解锁全文
662

被折叠的 条评论
为什么被折叠?



