
机器学习
happy1yao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据科学/人工智能比赛解决方案汇总 2019.9
内容来自 apachecn/awesome-data-comp-solution(https://github.com/apachecn/awesome-data-comp-solution/blob/master/README.md),由 ApacheCN 团队维护。欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远ApacheCN 学习资源(http://www.apa...转载 2019-11-27 09:53:04 · 1768 阅读 · 0 评论 -
第八章集成学习笔记
1. 个体与集成集成学习的一般结构:先产生一组"个体学习 器" (individual learner),再用某种策略将它们结合起来。同质集成中只包含同种类型的个体学习器,例如"决策树集成" 中全是决策树,“神经网络集成"中全是神经网络。同质集成中的个体学习器亦称基学习器 , 相应的学习算法称为基学习算法。 异质集成包含不同类型的个体学习器,例如同时包含决策树和神经网络,异质集成中的个体学习器由...原创 2019-06-27 14:30:02 · 737 阅读 · 0 评论 -
降维与度量学习笔记
1. k近邻学习k 近邻(k-Nearest Neighbor,简称 KNN)学习是一种常用的监督学习方法, 其工作机制非常简单: 给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k 个训练样本,然后基于这 k 个"邻居"的信息来进行预测。通常,在分类任务中可使用**“投票法”** 即选择这 k 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用**“平均法”** ,即将这 k ...原创 2019-07-12 23:46:58 · 406 阅读 · 0 评论 -
GBDT基本原理
GBDT (Gradient Boosting Decision Tree),梯度提升树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是既可以用于分类也可以用于回归。三是可以筛选特征。1. Decision Tree:CART回归树 GBDT使用的决策树是CART回归树,无...原创 2019-07-16 15:51:14 · 902 阅读 · 0 评论 -
特征选择与稀疏学习
1.子集搜索与评价对当前学习任务有用的属性称为"相关特征",没什么用的属性称为"无关特征"。从给定的特征集合中选择出相关特征子集的过程,称为"特征选择" (feature selection).将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。例如将前向搜索与信息熵相结合,这显然与决策树算法非常相似。特征选择是一个重要的数据预处理过程,进行特征选择的原因如下:(1)减少特征数量...原创 2019-07-17 14:11:52 · 411 阅读 · 0 评论 -
第十二章计算学习理论
1. 基础知识训练误差与经验误差:学习器在训练集上的误差成为“训练误差”或“经验误差”。在新样本上的误差称为“泛化误差”。根据大数定律,经验误差会收敛于泛化误差,两者(在一定容忍下)相近是由hoeffding不等式作为理论保证的,两者相差过大说明模型的欠拟合或者过拟合,而学习的一致收敛性说的正是这一特性:当训练集足够大,两者的结果就会足够相近。若 h 在数据集 D 上的经验误差为 0,则称...原创 2019-07-25 15:17:16 · 268 阅读 · 0 评论 -
第十三章半监督学习笔记
未标记样本很多时候我们有大量数据的数据集Du,但是只有少部分有标记记作Dl,如果仅用这一部分有数据的,数据量太小。我们可以用 Dl 先训练一个模型,拿这个模型去挑一个未标记样本,询问其标签,然后把这个新获得的有标记样本加入 Dl 中重新训练一个模型,再去挑 下一个,这样,若每次都挑出对改善模型性能帮助大的样本,则只需询问比较少的样本标签就能构建出比较强的模型,从而大幅降低标记成本。这样的学习...原创 2019-08-01 17:31:36 · 321 阅读 · 0 评论 -
LightGBM总结
LightGBM概念LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。LightGBM的起源2014年3月,陈天奇提出XGBOOST。在竞赛中,XGBoost算法非常热门,它是一种优秀的拉动框架,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了一个新的升压工具–LightGBM。在不降低准确率的前提下,速度提升...原创 2019-08-13 23:56:37 · 371 阅读 · 0 评论 -
GBDT算法总结
前向分布计算负梯度拟合不同的损失函数带表不同的优化目标,如指数损失、交叉熵、平方误差等,不同的损失函数代表了不同的优化目标。最常用的平方误差损失函数,其梯度即为残差。当换成其他损失函数时,残差不可用。上式即为梯度提升算法,把负梯度作为残差近似值进行迭代,使损失函数不断减小。损失函数损失函数分为经验风险损失函数和结构风险损失函数,经验风险损失函数反映的是预测结果和实际结果之...原创 2019-08-09 19:32:09 · 728 阅读 · 0 评论 -
随机森林
集成学习与个体学习器集成学习 (ensemble learning)通过构建并结合多个学习器来完成学习任务。先产生一组"个体学习器" (individual learner),再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,例如 C4.5 决策树算法、 BP 神经网络算法等。当集成中只包含同种类型的个体学习器,例如"决策树集成" 中全是决策树,“神经网络集成"...原创 2019-08-07 20:48:11 · 10730 阅读 · 1 评论 -
14.概率图模型
隐马尔科夫模型假定所关心的变量集合为 Y,可观测变量集合为 O,其他变量的集合为 R。生成式(generative)模型考虑联合分布 P(Y ,R,O),判别式 (discriminative)模 型考虑条件分布 P(Y, R I O).概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即...原创 2019-08-10 13:08:47 · 249 阅读 · 0 评论 -
XGBoost算法总结
1、XGBoost的优势XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:1、正则化标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。...原创 2019-08-12 21:00:50 · 337 阅读 · 0 评论 -
Adaboost算法总结
1. Boosting算法基本原理Boosting算法是一种由原始数据集生成不同弱学习器的迭代算法,然后把这些弱学习器结合起来,根据结合策略生成强学习器。如上图,Boosting算法的思路:(1)样本权重表示样本分布,对特定的样本分布生成一个弱学习器。(2)根据该弱学习器模型的误差率e更新学习器权重α。(3)根据上一轮的学习器权重α来更新下一轮的样本权重。(4)重复步骤(1)(2)(...转载 2019-07-02 17:27:19 · 1710 阅读 · 0 评论 -
第二章模型评估笔记
经验误差与过拟合错误率(error rate):E=a/m ,其中 m为样本个数, a为分类错误样本个数精度(accuracy):精度=1-错误率误差(error):学习器的实际预测输出与样本的真实输出之间的差异训练误差(training error):学习器在训练集上的误差,又称为经验误差(empirical error)泛化误差(generalization):学习器在新样本上的...原创 2019-06-19 15:40:17 · 285 阅读 · 0 评论 -
机器学习十大经典算法:(2)k-means算法
1.基本Kmeans算法[1][cpp] view plain copy选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数2.注...转载 2018-05-29 17:04:51 · 351 阅读 · 0 评论 -
机器学习十大常用算法汇总
1.决策树 以一个根节点开始,每一个节点提出一个问题,基于feature将数据分为两类,再子节点上再继续提问。每个节点上的问题和分类规则是根据已有的训练数据学习出来的。 决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。上图为一个决策树流程图,正方形代表判断模块,椭圆代表终止模块,表示已经得出结论,可以终止运行,左右箭头叫做分支。如果一个特征具有更好的分类能力,或...转载 2018-10-18 10:30:31 · 443 阅读 · 0 评论 -
线性回归算法梳理
一、基本概念有监督学习与无监督学习机器学习分为有监督学习、无监督学习和半监督学习(即强化学习)。监督学习的训练集包括输入和输出,即特征和人为标注的类别,通过对已有训练集的学习,反复迭代训练出一个最优模型,利用这个模型对后面的输入映射出一个最优输出,即分类。常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN(又称为k近邻分类k-nearest neighbor classif...原创 2019-03-30 01:21:33 · 413 阅读 · 0 评论 -
逻辑回归算法梳理
逻辑回归与线性回归的联系与区别共性:回归问题的条件/前提:1) 收集数据:特征、标签2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。区别:线性回归: 特征和结果都满足线性,即不大于一次方。表示为逻辑回归是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,即先把特征线性求和...原创 2019-04-01 17:33:48 · 505 阅读 · 0 评论 -
决策树算法梳理
信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)a. 熵信息熵假设集合D中有y类样本,第k类的样本出现频率为Pk,则样本D的熵为其中,当样本 DD 中 |y|∣y∣ 类样本均匀分布时,这时信息熵最大,纯度最小,熵为当样本D中只有一类样本,此时信息熵最小,纯度最大,熵为** 联合熵**因此如果在x的基础上加入了一个y,那么联合熵H(x,y) ,一定大于等于H(x),H(y...原创 2019-04-02 18:00:33 · 1075 阅读 · 0 评论 -
第四章决策树读书笔记
1.决策树概念一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.决策树的生成是一个递归过程.2.划分选择随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity) 越来越高.a.信息增益信息熵...原创 2019-05-21 15:30:11 · 383 阅读 · 0 评论 -
西瓜书第三章相关资料
读书笔记:https://blog.youkuaiyun.com/weixin_41940752/article/details/90080802课后题答案:https://blog.youkuaiyun.com/icefire_tyh/article/details/52069025原创 2019-05-17 09:07:55 · 218 阅读 · 0 评论 -
西瓜书第三章线性判别笔记
1.定义:线性模型:线性回归:试图学习出一个线性模型,能够尽可能准确预测出输出标记。2.性能度量如何确定上述模型中的w和b,衡量标准就是第二章中提到的均方误差最小化。常用的度量值为欧氏距离,方法为最小二乘法,即试图找到一个超平面,使得所有样本点到这个超平面的欧氏距离和最小。求解w和b使得欧氏距离最小化的过程称为最小二乘的参数估计。求极值在这里引入的是求导法,即欧氏距离E对w和b求导...原创 2019-05-13 11:08:26 · 594 阅读 · 0 评论 -
第六章SVM读书笔记
1.间隔与支持向量给定训练样本集 D = {(X1, Y1), X2, Y2) , . . . , (Xm, Ym)}, Yi ε{-1,1},分类学习最基本的想法就是基于训练集 D 在样本空间中找到一个划分超平面、将不同类别的样本分开。在样本空间中,划分超平面可通过如下线性方程来描述:其中 w = (w1,w2,… , wd) 为法向量,决定了超平面的方向; b 为位移项,决定了超平面...原创 2019-05-30 14:07:31 · 318 阅读 · 0 评论 -
第五章神经网络学习笔记
神经网络基本概念神经网络中最基本的成分是神经元模型,如果某神经元的电位超过了一个阈值 ,那么它就会被激活,即 “兴奋” 起来,向其他神经元发送信号。这就是一直沿用至今的 “M-P 神经元模型”。神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。阶跃函数具有不连续、不...原创 2019-06-05 15:19:42 · 906 阅读 · 0 评论 -
贝叶斯分类器笔记
贝叶斯神经网络的优点是可以根据较少的数据得到较为solid的模型,而且得到的是各层参数的分布(一般假设各层参数 wi,bi 服从高斯分布,根据训练集数据计算得出 wi,bi 的均值和方差),从而得到 p(W| X,Y) , 可以有效的解决过拟合的问题,不仅可以对结果进行预测,还可以对结果的误差进行有效预测。贝叶斯公式:由于 p(W| X,Y) 的概率分布复杂,难以求得均值方差等,因此贝叶斯神...原创 2019-06-13 16:14:55 · 807 阅读 · 0 评论 -
机器学习十大经典算法:(1)C4.5算法
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝; 3)能够完成对连续属性的离散化处理; 4)能够对不完整数据进行处理。 C4.5算法有如下优点:...转载 2018-05-29 15:56:36 · 1744 阅读 · 0 评论