机器学习
DataAnalysts
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习笔记 线性模型
写在前面的一些废话伴随课程以及自习,学得既算系统也算零散。学校多统计,算法讲解几近寥寥。自古以来,统计系的教授多半乐于指摘机器学习与人工智能,但学科总又不得不与之挂钩密切,且多随其发展潮起潮落。内部纠纷,不足为外人道已。只有深受其纷杂概念困扰的学习者,感触颇深。不随时总结,建立知识库,实在容易迷失。对《利用PYTHON进行数据分析》重点章节粗略研习,绘制思维导图加深记忆,成效喜闻乐见。但考虑到...原创 2019-02-11 17:10:15 · 477 阅读 · 0 评论 -
机器学习笔记 贝叶斯分类器(附Python与R代码)
朴素贝叶斯算法原理:通过某对象的先验概率,利用贝叶斯公式计算出后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。主要特点:属性可以离散,也可以连续;数学基础扎实,分类效率稳定;对缺失和噪声数据不太敏感;属性如果不相关,分类效果很好;如果相关,则不低于决策树。学习模型:计算对象归属于某一类的后验概率,以此最大概率的类作为对象所属类。即待学习的是对象的后...原创 2019-02-12 14:05:57 · 3056 阅读 · 0 评论 -
机器学习笔记 K近邻(附Python与R代码)
K近邻算法原理:通过计算新数据和训练数据特征值之间的距离,然后选取K个距离最近的邻居进行分类判断(投票法)或者回归。特点:不具有显示的学习过程,直接预测。实际上式利用训练数据集对特征向量空间进行划分,并且作为其分类的“模型”。k值选择:k=1,称为最近邻算法。此时将训练集中与测试样本最近的点类别作为测试样本的分类。k较小,用较小的邻域中的训练实例进行预测。偏差较小,方差较大,对近邻的实...原创 2019-02-12 16:54:18 · 605 阅读 · 0 评论 -
机器学习笔记 数据降维算法
降维本质:学习一个映射函数f:x→y,x为原始数据点表达,y是数据点映射后的低维向量。映射函数可以是显示或隐式的、线性或非线性的。主成分分析PCA算法:SVD降维:奇异值分解(SVD)等价于PCA主成分分析。非线性降维方法:PCA基于线性降维,非线性处理方法有:核化线性降维(KPCA)、流形学习降维、多维缩放(MDS)降维、等度量映射降维(Isomp)、局部线性嵌入(LLE)...原创 2019-02-13 09:08:50 · 534 阅读 · 0 评论 -
机器学习笔记 PCA降维PYTHON代码
PCA原型:class sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)参数:属性:方法:注:该方法基于SVD分解,无法解决稀疏项,并无法处理超大规模数据,因为其要求所有数据一次加入内存。代码实例:加载包...原创 2019-02-13 11:09:31 · 1922 阅读 · 0 评论 -
机器学习笔记:聚类算法
思想:将数据集划分为若干不相交子集(称为簇)。但算法并不会告诉你每个簇是什么意思,需要自行解释。作用:探索性分析方法,用来分析数据的内在特点,寻找数据的分布规律。作为分类的预处理,对待分类的对象进行聚类,然后对聚类出的结果的每一簇上,进行分类。有效性指标:外部指标:由聚类结果与某个参考模型进行比较得出;Jaccard系数、FM指数、Rand指数、ARI指数内部指标:直接由考察聚类结果而...原创 2019-02-13 13:22:03 · 457 阅读 · 0 评论 -
机器学习笔记 核方法
输入空间:欧式空间或离散集合;特征空间:希尔伯特空间;核函数:将输入从输入空间映射到特征空间得到的特征向量之间的内积。原创 2019-02-14 13:47:47 · 674 阅读 · 0 评论 -
机器学习笔记 支持向量机算法
基本思想:定义在特征空间上的间隔最大的线性分类器。主要学习策略为使得间隔最大化,可形式化为一个求解二次规划的问题,等价于正则化的合页损失函数的最小化问题。 分类:线性:线性可分支持向量机、线性支持向量机;非线性:非线性支持向量机当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔最大化,学习一个线性的分类器...原创 2019-02-14 15:08:42 · 407 阅读 · 0 评论
分享