文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送!
1、bert蒸馏了解吗
知识蒸馏的本质是让超大线下teacher model来协助线上student model的training。
bert的知识蒸馏,大致分成两种。
第一种,从transformer到非transformer框架的知识蒸馏
这种由于中间层参数的不可比性,导致从teacher model可学习的知识比较受限。但比较自由,可以把知识蒸馏到一个非常小的model,但效果肯定会差一些。
第二种,从transformer到transformer框架的知识蒸馏
由于中间层参数可利用,所以知识蒸馏的效果会好很多,甚至能够接近原始bert的效果。但transformer即使只有三层,参数量其实也不少,另外蒸馏过程的计算也无法忽视。
所以最后用那种,还是要根据线上需求来取舍。
2、给你一些很稀疏的特征,用LR还是树模型
参考:很稀疏的特征表明是高维稀疏,用树模型(GBDT)容易过拟合。建议使用加正则化的LR。
假设有1w 个样本, y类别0和1,100维特征,其中10个样本都是类别1,而特征 f1的值为0,1,且刚好这10个样本的 f1特征值都为1,其余9990样本都为0(在高维稀疏的情况下这种情况很常见),我们都知道这种情况在树模型的时候,很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好,但