网易雷火实习
1.小样本场景怎么分类 数据增强 对比学习
2.问了对比学习 只答了有监督的
4.生成模型蒸馏的目标函数是什么
5.T5位置编码和Bert、transformer区别
6.多卡训练每个卡负载不均怎么办
7.如何让实验结果稳定复现
8.学习率预热
9.Bert 为啥预训练采用mask语言模型,而不是语言模型;
10.Bert不mask行吗,直接输入然后预测那个词
11.Bert mask和W2V的cbow区别
12.生成模型 Teacher Forcing
13.wwm了解吗
手撕:给定数组和target,用±连接数组,得到target的方法数量,回溯
网易有道实习1
1.参数初始化了解吗
2.softmax计算结果较大怎么缓解
3.oov处理方法
4.多分类softmax后为啥要用交叉熵
5.BPE
6.decoder和encoder交互的注意力的q,k,v哪来的
7.说一说你了解的正则化方法
手撕:路径指的是某节点到叶子节点的一条路;二叉树所有路径中最大最小值相差最大是多少
网易有道实习2
1.T5相对位置编码
2.softmax上下溢出怎么办:减最大值
3.softmax带温度了解吗?exp()/t
https://blog.youkuaiyun.com/qq_36560894/article/details/114874268
4.场景:给出具有依赖的同义词上下文 i have an apple,给出have的同义词进行替换
5.场景:i havve an apple修正拼写错误
手撕:二叉树非递归后序遍历