
Machine Learning
云水谣CS
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
集成学习----“三个臭皮匠,赛过诸葛亮”
集成学习(Ensemble Learning)通过使用一些方法改变原始训练样本的分布,来构建多个不同的学习器,再结合这多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能。该过程中多个不同的分类器,叫做个体学习器或者基学习器。个体分类器之间要具备一定的差异性和准确性,即尽可能“好而不同”,个体分类器的准确度要大于0.5。集成学习的研究核心有二个内容:一者是如何构建具备一定差异性和准确率...原创 2018-09-11 20:51:12 · 611 阅读 · 0 评论 -
特征标准化
特征标准化的优点:归一化后,样本量纲一致,计算精度提高,提高收敛速度。特征标准化的方法:1.线性归一化:该方法适用于样本分布较为集中的时候,否则归一化结果不够稳定,归一化结果范围为0~12.标准差标准化该方法适用于样本原始分布近似于高斯分布,归一化结果范围为0~13.非线性归一化使用log,tanh等,经常用在数据分化比较大的场景,有些数值很大,有些很小。...原创 2018-09-05 21:14:02 · 1936 阅读 · 0 评论 -
SVM(Support Vector Machine)
支持向量机实际上是一种二分类模型,对于给定的数据样本,支持向量机需要找出一个线性函数(即为超平面),能够将样本数据分为二类,且正负类样本之间的间隔尽可能大。最大间隔与支持向量:对偶问题:可以直接求解上述函数,但是效率较低,可利用万能的拉格朗日法求解,优势如下:首先,当前处理的模型严重依赖于数据集的维度d,若d较大则会提升运算时间;其次,SVM的核心思想是将从依赖d个维度转变到依赖m...原创 2018-09-06 13:43:25 · 422 阅读 · 0 评论 -
决策树(Decision Tree)
决策树的生成过程主要分为:特征选择、决策树生成、剪枝(预防过拟合)等。特征选择的参数依据主要有信息增益、增益率、基尼指数等,来度量数据的纯度。信息增益:熵是随机变量不确定性的度量单位,取值越大,不确定性越大,数据纯度越低,从样本数据中随机抽取二个样本,其标签不同的概率越大。信息增益的计算方式为 “ 熵 - 条件熵”,反映为在一个条件下,信息不确定性减少的程度,数值越大越好,即为:...原创 2018-09-07 14:25:41 · 319 阅读 · 0 评论 -
贝叶斯分类器
贝叶斯分类器是基于“后验概率”实施决策的基本方法,通过最大化后验概率进行单点估计。根据贝叶斯原理,可知: 其中x为属性向量,c为类别label。P(c)是类“先验”概率,表示样本空间中各类别结果所占的比例;P(x|c)是条件概率,其大小等于。为了方便计算条件概率,引入“属性条件独立性假设”,即各属性之间相互独立,互不影响,称之为“朴素贝叶斯”。那么,显然,朴素贝叶斯分类器...原创 2018-09-10 21:41:07 · 277 阅读 · 0 评论 -
GBDT&GBRT
GBDT(Gradient Boosting Decision Tree):梯度提升决策树GBRT(Gradient Boosting Regression Tree):梯度提升回归树CART(Classification And Regression Tree)在Boosting算法中,当采取平方误差损失函数时,损失函数刚好表达的是当前模型的拟合残差,最优化比较方便;当采取指数损失函...原创 2018-09-13 21:31:55 · 2605 阅读 · 1 评论