7.20-7.26 字节推荐算法(DATA-EDU)5道面试题分享

本文分享了字节跳动推荐算法面试中的5道题目,涉及BERT蒸馏、稀疏特征处理、逻辑回归、分类损失函数选择以及BERT与RoBERTa的差异。对于稀疏特征,推荐使用带正则化的LR防止过拟合;在分类中,交叉熵损失优于MSE,因为其梯度更新更快。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送!

1、bert蒸馏了解吗

知识蒸馏的本质是让超大线下teacher model来协助线上student model的training。

bert的知识蒸馏,大致分成两种。

第一种,从transformer到非transformer框架的知识蒸馏

这种由于中间层参数的不可比性,导致从teacher model可学习的知识比较受限。但比较自由,可以把知识蒸馏到一个非常小的model,但效果肯定会差一些。

第二种,从transformer到transformer框架的知识蒸馏

由于中间层参数可利用,所以知识蒸馏的效果会好很多,甚至能够接近原始bert的效果。但transformer即使只有三层,参数量其实也不少,另外蒸馏过程的计算也无法忽视。

所以最后用那种,还是要根据线上需求来取舍。

2、给你一些很稀疏的特征,用LR还是树模型

参考:很稀疏的特征表明是高维稀疏,用树模型(GBDT)容易过拟合。建议使用加正则化的LR。

假设有1w 个样本, y类别0和1,100维特征,其中10个样本都是类别1,而特征 f1的值为0,1,且刚好这10个样本的 f1特征值都为1,其余9990样本都为0(在高维稀疏的情况下这种情况很常见),我们都知道这种情况在树模型的时候,很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好,但

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值