百面机器学习
文章平均质量分 90
百面机器学习
自己的小日子
请多指教
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
百面机器学习之第12章 集成学习
1.集成学习的种类 集成学习分哪几种?他们有何异同? 1.Boosting Boosting方法训练基分类器时采用串行的方法,各个基分类器之间有依赖。 它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。 2.Bagging Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器...原创 2021-10-10 15:09:20 · 516 阅读 · 0 评论 -
百面机器学习之第二章 模型评估(下)
1.余弦距离的应用 为什么在一些场景中要使用余弦相似度而不是欧氏距离? 对于两个向量A和B,其余弦相似度定义为: 即两个向量夹角的余弦,关注的是向量之间的角度关系,并不关心它们的绝对大小,其取值范围是[-1,1]。当一对文本相似度的长度差距很大,但内容相近时,如果使用词频或词向量作为特征,它们在特征空间中的欧式距离通常很大;而如果使用余弦相似度的话,它们之间的夹角可能很小,因而相似度高。此外,当研究的对象的特征维度很高时,余弦相似度在高...原创 2021-10-09 13:03:45 · 182 阅读 · 0 评论 -
百面机器学习之第二章 模型评估(上)
模型评估只要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。 1.评估指标的局限性 准确率的局限性? 分类准确率是指分类正确的样本占总样本个数的比例,即: 其中n_correct为被正确分类的样本个数,n_total为总样本的个数。 准确率是分类问题中最简单也是最直观的评价指标,但存在明显缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获...原创 2021-10-08 15:32:54 · 254 阅读 · 0 评论 -
百面机器学习之第一章 特征工程
特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际过程中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。 1.特征归一化 为什么需要对数据类型的特征做归一化? 为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,使得不同指标之间具有可比性。 对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内,最常用的...原创 2021-10-07 15:04:28 · 254 阅读 · 0 评论
分享