算法工程师2020校招面试

funNLPer

已于 2024-04-22 23:42:58 修改

阅读量1.5k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：笔面试文章标签：面试人工智能机器学习 nlp

于 2024-03-27 22:38:37 首次发布

本文链接：https://blog.youkuaiyun.com/orangerfun/article/details/137092053

本文记录了算法工程师在2020年实习和秋招期间的面试经历，涵盖平安科技、问镜科技、vivo、汽车之家等多个公司。面试内容涉及梯度检验、SVM、KKT条件、词向量表示、过拟合解决方案、 BeamSearch算法、L1与L2正则等机器学习和NLP相关知识点。同时，面试中还包含了BPE、命名实体识别、CRF、Transformer结构等深度学习主题，以及算法题和实际项目经验的讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- ------------------------------第一部分：实习2020.06------------------------
1. 平安科技（实习）
2. 问镜科技（实习）
- - 2.1 介绍BN，在test的时候如何使用BN
  - 2.2 dropout的作用，在test的时候如何使用dropout
3. vivo（提前批）
4. 汽车之家（实习）
5. 任意门科技有限公司(soulAPP)（实习）
6. 星环科技（实习）
7. 美团（实习）
- -----------------------------第二部分：秋招2020.09-------------------------
8. 泛微网络
9. 百度
10. 阿里
11. 中兴
12.快手
13. 步步高
14. 同花顺
15. 远景科技
16. 万得数据
17. 最右
18. 得物APP
19. 上海农商银行

------------------------------第一部分：实习2020.06------------------------

1. 平安科技（实习）

1.1 如何检验求得得梯度是正确得

求导得数学定义为：
$\frac{d}{d \theta} J=\lim _{\epsilon \rightarrow 0} \frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2 \epsilon}$

由此我们可得梯度校验的数值校验公式：
$\frac{d}{d \theta} J \approx \frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2 \epsilon}$

在实际应用中，我们常将 ϵ 设为一个很小的常量，比如 1e−4 数量级，我们不会将它设得太小，比如 1e−20，因为那将导致数值舍入误差。

程序验证：

# 定义sigmoid函数
def sigmoid(x):
	return 1/(1+np.exp(-x))

# sigmoid函数导数
def sigmoid_prime(x):
	return sigmoid(x)*(1-sigmoid(x))

# 验证求梯度是否正确
def check_sigmoid(x, eposi):
	return (sigmoid(x+eposi)-sigmoid(x-eposi))/(2*eposi)

x = np.array([1,2,3])
eposi = 1e-4
print(sigmoid_prime(x))
print(check_sigmoid(x, eposi))

输出

[0.19661193 0.10499359 0.04517666]
[0.19661193 0.10499359 0.04517666]

reference
机器学习算法的调试 —— 梯度检验（Gradient Checking）

1.2 随机梯度下降步长取值范围

以线性回归为例进行说明：
$L(\theta) = (\theta^TX^T-Y^T)(X\theta-Y)$

对参数求导得:
$\frac{dL(\theta)}{d\theta}=X^T(X\theta-Y)$

梯度下降算法为：
$\theta_{n+1}=\theta_n-\alpha X^T(X\theta_n-Y)$

将该公式变换得：
$\theta_{n+1} = F(\theta_n)=(I-\alpha X^TX)\theta_n+\alpha X^TY$

当 $\theta$ 收敛时，它是一个稳定点，即 $\theta = F(\theta)$ ，解出 $\theta = (X^TX)^{-1}X^TY$ ，与最小二乘法给出的结果一致。

按照非线性理论中的稳定性条件要求： $|F^{'}(\theta)|<1$ ，即 $|I-\alpha X^TX|<1$ ，因此 $0<\alpha<2(|X^TX|)^{-1}$ ；所以，当步长超出这个范围， $\theta$ 是不稳定的，很容易导致发散。

总结下就是，在求梯度下降得时候令 $\theta_{n+1}=F(\theta_n, \alpha)$

最低0.47元/天解锁文章

200万优质内容无限畅学