13、超人类变压器与GPT - 3引擎的崛起

超人类变压器与GPT - 3引擎的崛起

1. 机器翻译数据预处理与评估

在机器翻译领域,数据预处理是关键的第一步。以WMT法英数据集为例,该数据集来自欧洲议会,需要进行清理。具体操作步骤如下:
1. 数据转换 :将数据集转换为行格式。
2. 数据清理 :对数据进行清理,去除不必要的信息。
3. 数据降维 :通过抑制出现频率低于阈值的单词来减小数据集的大小。

对于机器翻译的NLP模型,需要统一的评估方法。在WMT数据集上训练模型时,通常使用BLEU评估。虽然几何评估是翻译评分的良好基础,但改进后的BLEU也有其局限性。因此,为了增强BLEU评估效果,添加了平滑技术。

此外,Google Translate提供了标准翻译API、媒体流API和自定义AutoML模型训练服务。如果项目顺利开展,实现Google Translate API可能无需进行AI开发;反之,则需要投入更多精力。同时,使用Google Brain的端到端深度学习库Trax实现了一个英德翻译变压器。

2. 构建变压器的主要组成部分

构建变压器主要涉及以下几个关键部分:
1. 架构 :确定变压器的整体结构。
2. 预训练 :对模型进行预训练,使其学习到通用的语言知识。
3. 训练 :在特定数据集上对模型进行训练,以适应具体任务。
4. 数据集预处理

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值