自然语言处理:BERT微调与序列到序列架构解析
1. BERT模型预训练与微调
在自然语言处理中,BERT模型是一个重要的里程碑。我们先来看一下注意力掩码在不同长度句子组成的小型语料库中的作用。
classics = [
'Tell me, O Muse, of that hero',
'Many cities did he visit',
'Exiled from home am I ;'
]
我们为分词器指定填充选项,并设置DistilBERT的最大序列长度为512,同时要求对序列进行截断:
tokenizer(classics, padding=True, truncation=True, max_length=512)
输出结果如下:
{
'input_ids': [
[101, 2425, 2033, 1010, 1051, 18437, 1010, 1997, 2008, 5394, 102],
[101, 2116, 3655, 2106, 2002, 3942, 102, 0, 0, 0, 0],
[101, 14146, 2013, 2188, 2572, 1045, 1025, 102, 0, 0, 0]
],
'attention_mask': [
[1, 1, 1, 1
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



