
机器学习
Chungchinkei
这个作者很懒,什么都没留下…
展开
-
Logistic Regression
前言写这个系列的主要原因,是想系统性地对之前学过的知识进行整理,顺便为秋招做好准备。本文不再对一些简单的概念进行大量阐述,重点放在算法本身,如公式的推导及统计学的理解。Logistic Regressionlogistic regression 用于解决二分类问题,对于给定的数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\lbrace(x_1,y_1),(x_2,...原创 2019-06-11 15:34:05 · 183 阅读 · 0 评论 -
Decision tree
决策树(decision tree)决策树学习主要分为3个步骤:特征选择、决策树生成和修剪策略。常用的决策树算法有ID3,C4.5,CART等。特征选择1.信息增益ID3决策树学习算法以信息增益为特征选择的准则,信息增益 = 信息熵 - 条件熵。其中,信息熵代表随机变量的不确定性,其计算公式为:H(p)=−∑i=1NpilogpiH(p)=-\sum_{i=1}^Np_i\log...原创 2019-06-25 15:30:47 · 235 阅读 · 0 评论 -
Bagging and Random Forest
BaggingBagging是并行式集成学习方法的代表之一,全称是Bootstrap aggregating,这个名字来源于bootstrap samping和 aggregation的思想。自助采样法(bootstrap sampling)对于包含m个样本的训练集,有放回地取出m个样本。采样后初始训练集中约有63.2%的样本会出现在采样集中,剩下36.8%的样本可以作为验证集进行包外估计...原创 2019-06-26 11:17:59 · 321 阅读 · 0 评论 -
Bias-Variance Tradeoff
Generalization error我们利用机器学习解决实际问题,通常会定义一个损失函数,并将训练集上的Loss最小化,但在有限的数据集上训练出来的模型并不能保证解决一般的问题时仍然是最优的。这个模型在有限的数据集(训练集)和一般的数据集(测试集)上的表现差异,可以用泛化误差来表示,泛化误差就是所学习到的模型的期望风险。泛化误差由随机误差(Error)、偏差(Bias)和方差(Varian...原创 2019-07-09 15:58:54 · 268 阅读 · 0 评论 -
SVM
目录支持向量机(SVM)函数间隔与几何间隔间隔最大化拉格朗日对偶性KKT条件支持向量机(SVM)支持向量机是一种二分类模型,其学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题。给定线性可分数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\lbrace(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbraceT={(x1,...原创 2019-07-15 19:56:27 · 310 阅读 · 0 评论 -
Boosting(AdaBoost、GBDT)
BoostingBoosting也是Ensemble Learning(集成学习)中重要的一类,和Bagging的并行式不同,Boosting的核心思想是按顺序去训练分类器,每一个都要尝试修正前面的分类。其中最具有代表性的是的是Adaboost(适应性提升, Adaptive Boosting)和Gradient Boosting(梯度提升)。对于Boosting方法来说,有两个非常重要的问题...原创 2019-08-13 15:11:45 · 296 阅读 · 0 评论