
百面机器学习
文章平均质量分 93
就是白面
Francis_s
在这里记录自己ML和DL的学习笔记。好好学习,认真做笔记,多看面经多交流,多刷LC,好好生活!
展开
-
推荐系统 之 XGBoost
这篇文章不知道为什么被吞了....我又得重新写一下,方便以后自己复习 写在前面:这篇文章觉得部分都是照搬这里,详细的描述可以直接看原文。本文只是将原文翻译成自己比较能理解的思路而已。1. XGBoost的原理XGBoost光从名字上我们就知道有boost的身影在里面了,它和AdaBoost的其中一个区别就是在合并模型的时候不需要加上一个权重系数,而是直接做加法运算模式。所以XGBoost也还是采用一个前向分布加法模型的,具体的表...原创 2022-01-03 18:13:49 · 2186 阅读 · 0 评论 -
百面机器学习 之 集成学习
我觉得这一章虽然简单,但是细节要回答得好还是得下点功夫的。问题1. 什么是Boosting和Bagging,他们各自有什么特点 Boosting的主要思想就是 将基分类器层层叠加,每一层训练的时候对前一层基分类器分错的样本给予更高的权重进行训练,每个分类器之间是采用串行的方式,各个分类器之间有依赖。测试的时候各层的分类器的结果的加权得到最终结果。Bagging的主要思想就是 也是训练基分类器,但是和Boosting不一样的是,Bagging的训练器之间是没有依赖...原创 2021-12-31 21:38:38 · 938 阅读 · 0 评论 -
百面机器学习 之 循环神经网络
循环神经网络其实主要的就是(暂且我知道的)RNN,LSTM,GRU三个网络,其中后两个都是RNN的变种,来解决梯度消失的问题。 RNN的介绍以及特点,还有为什么会梯度消失已经写过了,在这里 LSTM的介绍以及特点,还有怎么改善梯度消失的方法也写过了,在这里 下面就是针对百面这本书来对以上提到的网络和已有的博客做一个知识点的补充1. 处理文本数据时,循环神经网络和前馈神经网络各自的处理方式是怎样的?一般...原创 2021-12-29 23:56:38 · 771 阅读 · 0 评论 -
百面机器学习 之 激活函数+反向传播
考完期末了,final week真的很折磨人,我发现我把书全看了也没我同学光看ppt懂的多,巨多知识点,计算过程在ppt上,我都miss掉了,很气人。还有Tobias,这老师我真的得骂一骂才爽,搞一堆幺蛾子出来,教的课就完全讲不清楚,活该评分低,活该sorry。真的把头都给气歪了1.软硬饱和函数假设h(x)是一个激活函数。1. 饱和当我们的x趋近于正无穷,h(x)'趋近于0,那么我们称之为右饱和。当我们的n趋近于负无穷,h(x)'趋近于0,那么我们称之为左饱和。当一个函...原创 2021-12-18 02:39:58 · 2358 阅读 · 0 评论 -
百面机器学习 之 优化算法+标准化+正则化+损失函数
1. 背景 优化算法做的事就是在 模型表征空间中找到模型评估指标最好的模型。这里就引出了什么是模型的表征空间,以及什么是评估指标了。只有正确地应用表征空间以及评估指标,才可以更好地优化模型譬如SVM的模型表征空间就是线性分类模型,然后评估指标就是最大间隔 逻辑回归的模型表征空间就是线性分类模型,然后评估指标就是交叉熵 我自己理解模型表征空间就是表明这个模型要处理什么问题,评估指标就是比较出真实值和模型估计值之间的差异。 ...原创 2021-12-08 18:24:16 · 2325 阅读 · 0 评论 -
百面机器学习 之 K-Means聚类
1. 非监督学习 主要包含两大类学习方法:数据聚类和特征变量关联,这里只讲数据聚类的方法,也就是K-Means,它是通过多次迭代找到数据的最优分割。 和监督学习不同的是,监督学习是知道了样本label,也就是知道了样本是属于哪个类的,所以模型/网络只需要对某一类建立自己学习到的规则就好了,然后对于未知的样本根据我们先验学习到的规则进行分类。 而这里的聚类(K-Means),是在事先不知道任何样本类别的情况下,通过数据间的内在关系把样本划分为若干类别,使得...原创 2021-12-05 22:45:27 · 2689 阅读 · 0 评论 -
百面机器学习 之 决策树
决策树这一章节已经写过类似的了:具体的特征选择算法可以看以前的文章:《统计学习方法》决策树及剪枝,回归树分类树 里面都详细地介绍了ID3,C4.5,还有GINI系数三种特征选择方法了 除此之外,书上还提高了他们之间的对比,这里可以着重看一下:1. ID3 和C4.5 的提升点在哪里 这里其实上面提到的文章也说了,但是这里再说一次: ID3会优先选择那些特征的取值较多的特征,根据此特征划分更...原创 2021-11-26 22:14:09 · 665 阅读 · 0 评论 -
百面机器学习 之 逻辑回归
逻辑回归别看简单,但是里面在面试里面考察的内容还是很多的。尤其在推荐算法领域,GBDT+LR就是在前几年还相当流行的一个推推荐算法手段。 在这篇文章之前,已经写过一些关于logistics Regression的补充了。问题1:逻辑回归相比于线性回归,有何异同 首先,逻辑回归是处理分类问题,线性回归是处理回归问题。这是两者最最本质的区别。 逻辑回归是给定自变量和超参数后,得到因变量的期望,基于期望来处理预测分类的文同。 ...原创 2021-11-25 06:56:45 · 886 阅读 · 0 评论 -
百面机器学习:支持向量机
1. BG其实之前就已经写过了关于支持向量机的博客了支持向量机SVM里面比较详细地写出了整个流程,这里借助百面机器学习这本书跟着书上的内容在复习一次。 相信大家都看过关于SVM的童话故事了,我们把球看作是数据,木棍看作是分类面,好到最大间隔的木棒位置叫做优化,拍桌子让球飞到空叫核函数,在空中分隔球的纸称为分类超平面。问题1:在空间上线性可分的两类点,分别向SVM分类的超平面做一个投影,这些点在超平面上的投影仍然是线性可分的吗? 不可能呀,书...原创 2021-11-24 03:24:44 · 625 阅读 · 0 评论 -
百面机器学习:模型评估
1. 评估指标的局限性 要合理地运用评估指标,才可以发现模型本身的问题,不然反其道而行之得出错误的调参结论。先讲了TP、FP、FN、和FP这几个值。 这几个率真的是看一次忘一次,人都麻了 准确率的局限性 定义:分类正确的样本 占 总样本的个数的比例: 缺陷:当不同类别的样本比例非常不均衡的时候,占比大的类别往往成为影响准确率的最主要因素,当某一类的占比高达99%,且这一类模型都分对了,那意思是模...原创 2021-11-22 19:44:18 · 1345 阅读 · 0 评论 -
百面机器学习:特征工程
1. 数据归一化 为什么要做归一化呢,这里面真的有大学问了! 首先数据归一化的目的是消除数据单位不一致而造成的量纲不一样的影响。那如果咱们不这么做的话,会出现什么问题呢? 我们来详细了解一下,这里面真的是不看不知道,一看吓一跳 先看一个例子,假如你收集到一个数据集,一列是年龄,一列是身高(厘米)。比如体重的数据都是60,65。身高的数据是180,185,你发现它的量纲远远大于age,身高对应的权重是W2,体重对应的权重是W1,假如要根据...原创 2021-10-22 04:58:58 · 155 阅读 · 0 评论