参考:
参数量计算
https://zhuanlan.zhihu.com/p/144582114
为什么bert中的设置为: size_per_head * num_heads = 768
https://github.com/google-research/bert/issues/316
参考:
参数量计算
https://zhuanlan.zhihu.com/p/144582114
为什么bert中的设置为: size_per_head * num_heads = 768
https://github.com/google-research/bert/issues/316