BAT机器学习面试1-5题笔记

最新推荐文章于 2023-08-23 21:37:57 发布

Fenta01

最新推荐文章于 2023-08-23 21:37:57 发布

阅读量497

点赞数

分类专栏：刷题大法

刷题大法专栏收录该内容

24 篇文章

订阅专栏

本文精选BAT机器学习面试题，涵盖SVM、TensorFlow、距离度量、CNN及LR模型等核心概念，深入解析机器学习与深度学习面试知识点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BAT机器学习面试1-5题

前言

本文章，题目与解析为转载系列。会加入自己的理解。BAT机器学习面试1000题系列，侧重机器学习、深度学习。我们将通过这个系列索引绝大部分机器学习和深度学习的笔试面试题、知识点，它将更是一个足够庞大的机器学习和深度学习面试库/知识库，通俗成体系且循序渐进。

1.请简要介绍下SVM

SVM全称：Support Vetor Machine，中文名支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开，学习的策略是间隔最大化。
引用：https://blog.youkuaiyun.com/v_july_v/article/details/7624837 （《支持向量机通俗导论（理解SVM的三层境界）》）

2.请简要介绍tensorflow的计算图

Tensorflow是一个通过计算图的形式来表述计算的编程系统，计算图也叫数据流图，可以把计算图看做是一种有向图，Tensorflow中的每一个计算都是计算图上的一个节点，而节点之间的边描述了计算之间的依赖关系。（如下面两图所示）
a=x*y; b=a+z;
c=tf.reduce_sum(b);

在这里插入图片描述

3.对比欧式和曼哈顿距离的差别

在k-means或kNN，我们常用欧氏距离来计算最近的邻居之间的距离，有时也用曼哈顿距离，请对比下这两种距离的差别。
欧式距离: 最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为：
在这里插入图片描述欧氏距离虽然很有用，但也有明显的缺点。它将样品的不同属性（即各指标或各变量量纲）之间的差别等同看待，这一点有时不能满足实际要求。例如，在教育研究中，经常遇到对人的分析和判别，个体的不同属性对于区分个体有着不同的重要性。因此，欧氏距离适用于向量各分量的度量标准统一的情况。

**曼哈顿距离：**在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上，坐标（x1, y1）的点P1与坐标（x2, y2）的点P2的曼哈顿距离为：，要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。当坐标轴变动时，点间的距离就会不同。
图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。
在这里插入图片描述
通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，这也是曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

另，关于各种距离的比较参看《从K近邻算法、距离度量谈到KD树、SIFT+BBF算法》

4.CNN的卷积核是单层的还是多层的？

参数（权重）共享 : 数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的参数（权重）共享机制。
(再打个比方，某人环游全世界，所看到的信息在变，但采集信息的双眼不变。btw，不同人的双眼看同一个局部信息所感受到的不同，即一千个读者有一千个哈姆雷特，所以不同的滤波器就像不同的双眼，不同的人有着不同的反馈结果。)
(卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）)
在这里插入图片描述
在CNN中,卷积计算属于离散卷积, 本来需要卷积核的权重矩阵旋转180度, 但我们并不需要旋转前的权重矩阵形式, 故直接用旋转后权重矩阵作为卷积核表达, 这样的好处就离散卷积运算变成了矩阵点积运算。
一般而言，深度卷积网络是一层又一层的。层的本质是特征图, 存贮输入数据或其中间表示值。一组卷积核则是联系前后两层的网络参数表达体, 训练的目标就是每个卷积核的权重参数组。
描述网络模型中某层的厚度，通常用名词通道channel数或者特征图feature map数。不过人们更习惯把作为数据输入的前层的厚度称之为通道数（比如RGB三色图层称为输入通道数为3），把作为卷积输出的后层的厚度称之为特征图数。
卷积核(filter)一般是3D多层的，除了面积参数, 比如3x3之外, 还有厚度参数H（2D的视为厚度1). 还有一个属性是卷积核的个数N。
卷积核的厚度H, 一般等于前层厚度M(输入通道数或feature map数). 特殊情况M > H。
卷积核的个数N, 一般等于后层厚度(后层feature maps数，因为相等所以也用N表示)。
卷积核通常从属于后层，为后层提供了各种查看前层特征的视角，这个视角是自动形成的。
卷积核厚度等于1时为2D卷积，也就是平面对应点分别相乘然后把结果加起来，相当于点积运算.
卷积核厚度大于1时为3D卷积(depth-wise)，每片平面分别求2D卷积，然后把每片卷积结果加起来，作为3D卷积结果；1x1卷积属于3D卷积的一个特例(point-wise)，有厚度无面积, 直接把每层单个点相乘再相加。
AlexNet属于M>H的情况（不是很清楚）

5.关于LR。机器学习 ML模型

（把LR从头到脚都给讲一遍。建模，现场数学推导，每种解法的原理，正则化，LR和maxent模型啥关系，LR为啥比线性回归好。有不少会背答案的人，问逻辑细节就糊涂了。原理都会? 那就问工程，并行化怎么做，有几种并行化方式，读过哪些开源的实现。还会，那就准备收了吧，顺便逼问LR模型发展历史。）

Logistic Regression(逻辑回归):二分类器，初始名字逻辑斯蒂，名字来源于逻辑斯蒂分布：
逻辑斯蒂分布：设X是里阿奴随机变量，X服从逻辑斯底分布是指X具有下列的分布函数和密度函数：
在这里插入图片描述

式子中：μ 表示位置参数，γ>0 为形状参数。
可以发现F（x）与sigmoid特别相似。这个曲线是以点（μ ,0.5）为中心对称。
二项逻辑回归模型
逻辑回归是一种二分类模型，由条件概率P(Y|X)表示，形式就是参数化的逻辑斯蒂分布。这里的自变量X取值为实数，二因变量Y为0或者1。二项LR的条件概率如下：
在这里插入图片描述

在这里插入图片描述

也就是说，输出Y=1的对数几率是由输入x的线性函数表示的模型，这就是逻辑回归模型。当 w⋅x的值越接近正无穷，P(Y=1|x) 概率值也就越接近1.

模型的数学形式确定后，剩下就是如何去求解模型中的参数。在统计学中，常常使用极大似然估计法来求解，即找到一组参数，使得在这组参数下，我们的数据的似然度（概率）最大。
在这里插入图片描述

在逻辑回归模型中，最大化似然函数和最小化对数似然损失函数实际上是等价的

接下来就是对 $L (w)$ 求极大值(也可认为是求 $J (w)$ 的最小值)，得到 $w$ 的估计值。逻辑回归学习中通常采用的方法是梯度下降法和牛顿法。

在这里插入图片描述 逻辑回归的正则化：
当模型的参数过多时，很容易遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式，通过在经验风险上加一个正则化项，来惩罚过大的参数来防止过拟合。

正则化是符合奥卡姆剃刀(Occam’s razor)原理的：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单的才是最好的模型。

过拟合的原因可能是能影响结果的参数太多了。典型的做法在优化目标中加入正则项，通过惩罚过大的参数来防止过拟合：
在这里插入图片描述 p=1或者2，表示 $L 1$ 范数和 $L 2$ 范数，这两者还是有不同效果的。

L1范数：是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。那么，参数稀疏有什么好处呢？

一个关键原因在于它能实现特征的自动选择。一般来说，大部分特征 xi和输出 yi 之间并没有多大关系。在最小化目标函数的时候考虑到这些额外的特征 xi，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会干扰了对正确 yi 的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。

L2范数：它有两个美称，在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减”(weight decay)。

它的强大之处就是它能解决过拟合问题。我们让 L2 范数的规则项 ||w||2 最小，可以使得 w 的每个元素都很小，都接近于0，但与 L1 范数不同，它不会让它等于0，而是接近于0，这里还是有很大区别的。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。
为什么一个让绝对值最小，一个让平方最小，会有那么大的差别呢？看导数一个是1一个是w便知, 在靠进零附近, L1以匀速下降到零, 而L2则完全停下来了. 这说明L1是将不重要的特征(或者说, 重要性不在一个数量级上)尽快剔除, L2则是把特征贡献尽量压缩最小但不至于为零. 两者一起作用, 就是把重要性在一个数量级(重要性最高的)的那些特征一起平等共事(简言之, 不养闲人也不要超人)。
关于范式的介绍

为什么逻辑回归比线性回归要好？
虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。然而，正是这个简单的逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。
在这里插入图片描述重要的推导图：