在研究 Transformer 模型时,我们倾向于关注模型的架构以及为训练它们而提供的数据集。我们探索了原始的 Transformer,微调了类似 BERT 的模型,训练了 RoBERTa 模型,探索了 GPT-3 模型,训练了 GPT-2 模型,实现了 T5 模型等等。我们还完成了主要的基准测试任务和数据集。
我们训练了一个 RoBERTa 分词器并使用分词器对数据进行编码。但是,我们没有探索标记器的局限性来评估它们如何适合我们构建的模型。人工智能是数据驱动的。拉菲尔等人。(2019 年)与本书中引用的所有作者一样,花时间为 Transformer 模型准备数据集。