
Bert
林子要加油
从事机器学习、NLP相关工作
展开
-
Adam与AdamW
1. Adam optimizeradam优化器是经常使用到的模型训练时的优化器,但是在bert的训练中不起作用,具体表现是,模型的f1上不来。2. AdamWtransformers 库实现了基于权重衰减的优化器,AdamW,这个优化器初始化时有6个参数,第一个是params,可以是torch的Parameter,也可以是一个grouped参数。betas是Adam的beta参数,b1和b2。eps也是Adam为了数值稳定的参数。correct_bias,如果应用到tf的模型上时需要设置为False原创 2020-09-06 22:46:42 · 21193 阅读 · 1 评论 -
最通俗易懂的Bert教程
文章目录一. transformer encoder0. Tansformer 整体感受1. positional encodingpositional \ encodingpositional encoding, 即**位置嵌入**(或位置编码);2. self attention mechanismself \ attention \ mechanismself attention mechanism, **自注意力机制**3. 残差连接和La原创 2020-05-30 00:45:13 · 2535 阅读 · 0 评论 -
pytorch使用Bert
主要分为以下几个步骤:下载模型放到目录中使用transformers中的BertModel,BertTokenizer来加载模型与分词器使用tokenizer的encode和decode 函数分别编码与解码,注意参数add_special_tokens和skip_special_tokensforward的输入是一个[batch_size, seq_length]的tensor,再需要注...原创 2020-05-01 00:35:12 · 2624 阅读 · 3 评论