
笔记
文章平均质量分 73
学习机器.
用数据改变世界
展开
-
机器学习算法(五):集成学习
一、个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。下图显示出集成学习的一般结构: 集成学习一般结构:先产生一组个体学习器(也称基学习器),再用某种策略将它们结合起来。基学习器通常是由现有算法(如逻辑回归、决策树)从训练数据产生。基学习器是同种算法,例如都是决策树,也可以包含不同算法,例如决策树和神经网络。 集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的性能。因此基学习器往往也被称为弱学习器,尽管它们可能并不是很弱。 集成学习一原创 2021-03-16 19:52:27 · 574 阅读 · 0 评论 -
机器学习算法(四):贝叶斯分类器
条件概率与乘法公式与全概率公式 如图,A和B是全集的子集,则有: 这就是条件概率公式。对条件概率公式稍加改写便可得到: 上式告诉我们:当P(AB)不容易求的时候,可以利用P(A|B)P(B)或P(B|A)P(A)来求 将上式一般化: 这就是乘法公式。 下面介绍全概率公式: 全概率公式将求解一个复杂事件的概率化解为求解多个子事件的概率。 贝叶斯定理 根据前面的乘法公式: 我们可得: 这就是贝叶斯定理,等式右边的3个概率都是已知的,所以可求解。基于贝叶斯定理,有以下3个常见算法: 1.朴素贝叶斯算原创 2021-03-15 20:46:36 · 187 阅读 · 0 评论 -
机器学习算法(三):支持向量机
支持向量机(SVM) 给的训练集D={(x1,y1),(x2,y2)…(xm,ym)},y=1或-1。支持向量机的想法就是在样本空间中找到一个划分超平面,将不同类别的样本分开。 这样的超平面会有很多,哪一个才是最优的呢? 首先,我们描述一个超平面: w=(w1,w2…wd) x=(x1,x2…xd) w和x均为列向量 w表示超平面的法向量,决定了超平面在空间中的角度;b为位移项,表示超平面与原点之间的距离;x表示超平面上的一个点。显然,超平面可以由参数w和b共同确定。将超平面记为(w,原创 2021-03-14 14:39:26 · 504 阅读 · 0 评论 -
机器学习算法(二):决策树
决策树是一种常见的分类和回归算法,分为分类树和回归树。 一、分类树 分类树的分类思想很自然,就像常人一样,常人在判断一个瓜是不是好瓜时,一般先看色泽(当然也可能是其他属性),再看根蒂,再听敲声…最终我们做出一个分类:它是好瓜或者坏瓜。分类树正是对每一个示例采取这种属性依次判别的方式来做出最终分类的。在使用分类树进行分类时,从根结点开始,对实例的某一属性进行判断,根据判断结果,将实例分配到其子结点。这时,每一个子结点内部都是该属性取值相同的示例。如此递归地对实例进行判断并分配,直至达到叶子结点。最后将实例分到原创 2021-03-12 19:59:16 · 392 阅读 · 0 评论 -
机器学习算法(一):线性模型
一、线性回归 对于由m个d维样本点组成的样本x 线性回归模型试图学得一个通过属性的线性组合来进行预测的函数: 或用矩阵形式表示为: 使得 其中 注意这里w和x都是列向量,b是截距项。当w和b确定后,模型也就确定了,那么怎么求w和b呢?最优的w和b就是使损失函数最小的w和b,类似于一元线性回归中使用均方误差作为损失函数,多元线性回归损失函数可以用矩阵表示为: 上式中,为了便于讨论我们把数据集矩阵x增广为一个m*(d+1)的矩阵X,把w和b吸收入 ,亦即 那么令 解上式后即可得到w和b。 二原创 2021-03-11 15:49:11 · 343 阅读 · 0 评论 -
天池学习赛之贷款违约预测
一、写在前面的话 这是我的第一篇博客,希望写好。我几乎是一个编程小白,只有一点点C和Java的经验,一路懵头懵脑的成为了一名经济学渣硕(真的是渣)。研一下学期开了一门《数据挖掘与分析》的课,虽然我也不知道经济学为什么会开这种课,也许是因为学院顶了一个“大数据”的高大上(假大空)头衔,无论怎样,我与机器学习的缘分从此结下。之后开启了一路踩坑的自学之旅,到了今天总算能自己独立写出一个数据挖掘的流程了,虽然很烂,但我相信以后会更好。。。 二、赛题介绍 本次比赛是天池的学习赛,赛题为预测用户贷款是否违约,是一个典型原创 2020-12-09 23:41:47 · 3784 阅读 · 1 评论