
nlp
文章平均质量分 91
阿唐明
time is money
https://www.zhihu.com/people/hirolin-89
展开
-
小白Bert系列-albert
albert https://arxiv.org/pdf/1909.11942.pdf 主要几点: 1.词嵌入部分进行矩阵分解减少参数量 2.block参数共享较少参数,更好鲁棒性 3.改用sop学习句子顺序关系 4.去掉dropout,增加数据源 还有一点 ngram masking 意思就是之前任务中都是masking单个字,ngram相当于是短语,任务更难了。 1.矩阵分解 在bert模型中,词嵌入向量部分通过全连接方式学习, 设词汇量为V,词向量维度和隐藏层维度H是一样。那词嵌入矩阵大小为VH。例如原创 2021-10-09 19:19:20 · 454 阅读 · 0 评论 -
bert源码解析-modeling.py
bert源码解析-modeling.py bert是transformer的encoder部分,以google-bert源代码为例。 由两个重要的class组成: 1.BertConfig 大多时候改动的参数并不多,知晓这些参数可以便于推算模型的大小,比如隐藏层大小768 class BertConfig(object): def __init__(self, vocab_size, hidden_size=768,原创 2021-10-09 19:14:40 · 1608 阅读 · 0 评论