
机器学习
ml
wyz_267
在迷茫中寻找希望
展开
-
小结(传统+深度)
1.线性回归每个特征对应一个权重,进行加权求和,预测数值结果学习方法:mse最小均方误差如果用DNN做线性回归,仅需要把最后一层分类函数改成一个神经元,该神经元没有激活函数,输出的值域 负无穷~正无穷 损失函数mse2.逻辑回归1.对线性回归的结果进行二次处理, 加上一个sigmoid函数,使得输出为0到1之间有概率意义2. 逻辑回归使用的损失函数是KL距离(不是mse)3. 对于连续值的输入(如年龄,收入)进行离散化,使用one-hot。好处:降低敏感,能够具有非线性的能力。4. 输原创 2020-09-24 21:57:25 · 182 阅读 · 0 评论 -
面试+题1
简历关键词1面自我介绍:毕业学校,过往经历算法题项目业务问题 — > AI问题 比如预测股票,是个回归的问题(机器学习算法的归类)AI领域面临的问题 比如有数据缺失问题,类别不平衡的问题 解决方法:从性能,场景模型本身的理解: 理论性,说出模型适用场景,优势和不足 e.g w2v 和统计的方法相比的缺点对新词,不能有效增量处理解决方法未来更进一步的做法(想法)4.面试方向a. 问为什么不用xx方法? xx方法时间性能上不行,原创 2020-09-24 19:41:30 · 160 阅读 · 0 评论 -
常见面试题2
目录1.样本不平衡2.激活函数,为什么sigmoid不好3.梯度消失和梯度爆炸4. DL损失函数介绍5. Relu的问题6. Dropout7.多分类的方法8.W2V的原理9.CNN的原理10. fasttext和cnn在文本分类1.样本不平衡解决方法:上采样 下采样样本数量比较少: 上采样把一个样本重复几次比如原来有10个样本,每个样本重复10遍,就有一百个样本数量比较多: 下采样比如 有1000个样本随机挑100个2.激活函数,为什么sigmoid不好常用激原创 2020-09-24 15:52:09 · 174 阅读 · 0 评论 -
RF
1. Bootstrap从一个数据集中有放回的抽取N次,每次抽M个。 解析:Bagging算法基于bootstrap。面试时结合Bagging算法讲述会更好。2. 过程原创 2020-09-22 09:57:52 · 140 阅读 · 0 评论 -
XGB笔记
与GBDT的区别GBDT:普通的gbdt就是以cart回归树作为基函数,因此一定要给cart树一个拟合值,即当前gbdt的梯度值XGB :Gain是根据Obj的差值计算出来的,因此这里不需要给定拟合值y,只需要一阶、二阶梯度就可以计算Gain3.✍xgb1.构造目标函数(正则)2.近似目标函数:泰勒展开: 2阶3.把树的结构引入目标函数4.贪心算法优化...原创 2020-09-21 17:19:14 · 131 阅读 · 0 评论 -
LGB笔记
1.GOSS2. EFB3. Hist4. 不用one-hot 编码xgb是level-wise,lgb是leaf-wise,level-wise指在树分裂的过程中,同一层的非叶子节点,只要继续分裂能够产生正的增益就继续分裂下去,而leaf-wise更苛刻一点,同一层的非叶子节点,仅仅选择分裂增益最大的叶子节点进行分裂。数据并行特征并行 特征并行的主要思想是不同机器在不同的特征集合上分别寻找最优的分割点,然后在机器间同步最优的分割点 并行是在特征的粒度上并行的(1)XGB在训练之前原创 2020-09-21 16:42:09 · 370 阅读 · 0 评论 -
GBDT笔记 Gradient Boosted Decision Trees
1. Bagging & Boostingbaggingweek learner: overfittingRF: 并行训练,投票boostingweek learner: underfittingadboost, gbdt,xgboost:串行训练,累加2. 梯度树梯度树 : 基于残差的训练残差: 真实值 - 预测值最终预测 = 模型1预测 + 模型2预测 + …+ 模型n预测3.✍gdbt原理和过程1.目标函数2.泰勒一阶展开情况f(x + m),为什么能直接求偏导 能原创 2020-09-21 12:13:24 · 212 阅读 · 0 评论 -
K-means笔记
K-means聚类算法过程随机设定k 个 中心点。(初始化参数)循环所有的点,计算与中心点的距离,分到最近的类。(E-step)重新计算中心点(坐标求平均)。(M-step)step2, 3停止条件:肯定会收敛,当不动了目标函数针对每个分类,计算出点到中心点的距离,希望距离的平方和最小.k clustersμk表示第k个类的中心点坐标 \mu_{k} \quad 表示第k个类的中心点坐标μk表示第k个类的中心点坐标rnk={1当xn属于第k类0otherwiser_{原创 2020-09-21 11:45:39 · 124 阅读 · 0 评论