
机器学习
青山流水在深谷
大数据开发
展开
-
机器学习之SVM
目录SVM简介线性SVM算法原理非线性SVM算法原理SVM简介支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损...原创 2020-05-03 23:21:34 · 1038 阅读 · 0 评论 -
机器学习之初识PCA
一 定义及用途定义:即主成分分析方法,无监督学习方法,是一种使用最广泛的数据降维算法。用途:用于特征降维,通过分析主成分先显出最大的个别差异,发现更便于人类理解的特征;也可以用来削减回归分析和聚类分析中变量的树木二 出现原因在很多场景中对多变量数据进行观测,在一定程度增加数据采集工作量。更重要的是:多变量之间可能存在相关性,从而增加问题分析的复杂性如果对每个指标(特征)单...原创 2020-04-25 23:07:16 · 251 阅读 · 0 评论 -
机器学习之决策树简析
模型训练算法介绍机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,"经验"通常以"数据"形式存 在,因此机器学习所研究的主要内容是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西...原创 2020-04-19 22:43:33 · 415 阅读 · 0 评论 -
sklearn之线性回归和多项式回归
涉及内容多项式回归多项式的sklearn实现偏差和方差增加算法模型泛化能力的正则化处理多项式回归研究一个因变量与一个或多个自变量(特征)间多项式的回归分析,成为多项式回归(Ploynomial Regression).其为线性回归模型,其回归函数关于回归系数是线性的,自变量x和因变量y之间的关系被建模为n次多项式当自变量只有一个时,成为一元多项式回归;如果自变量(特征)为...原创 2020-04-05 23:46:16 · 1836 阅读 · 0 评论 -
梯度算法之初见
本文涉及内容什么是梯度为什么需要梯度下降算法如何理解梯度算法数学推导梯度算法的缺点什么是梯度简单来说,多元函数的导数(derivative)就是梯度(gradient),因为导数标识函数的变化趋势(递增或递减,震荡),分别对每个变量进行微分,然后用逗号隔开,梯度是用括号包括起来,说明梯度实质是一个向量,我们说的损失函数Loss Function的梯度为:导数就是函数变...原创 2020-03-29 14:16:15 · 972 阅读 · 0 评论 -
机器学习-简单逻辑回归实现
简单线性回归相关定义所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程线性;所谓回归,是指可以用方程模拟自变量和因变量如何关联- 简单线性回归属于回归算法,即lablel(标签列)为连续性数值数学思想,通过线性方程来预测因变量与自变量的关系y为预测标签值,x为样本特征变量,b为截距项(调整预测值与实际值的误差)Y=ax+b 求解思路确定一条直线,最大程...原创 2020-03-22 00:36:39 · 485 阅读 · 0 评论 -
机器学习之重头戏-特征预处理
涉及内容特征预处理中对特征无量纲化处理特征工程缺失值处理分类特征处理连续特征处理无量纲化定义及需求定义: 也称数据的规范化,是指不同特征之间由于存在量纲不同导致其无法比较。数据规范处理时,必然对不同量纲特征使用一些方法(如归一化、标准化)进行处理,消除量纲,更好地进行特征筛选和算法训练无量纲方法(几何角度)直线型,是指特征原值与无量纲化后的特征值成线性关系,常用的有...原创 2020-03-15 23:29:52 · 427 阅读 · 0 评论 -
机器学习-评价分类、回归算法模型指标
评价分类、回归算法模型指标涉及内容数据拆分,训练数据集&测试数据集评价分类指标结果 :准确率,混淆矩阵,精确率,召回率,F1 Score ,ROC曲线等评价回滚指标结果:MSE,RMSE,MAE,R square等数据拆分拆分结果训练集-用于训练模型的子集测试集-用于测试训练后模型的子集测试集满足条件规模足够大,可产生具有统计意义的结果能代表整个数据集。即...原创 2020-03-08 12:48:42 · 763 阅读 · 0 评论 -
分类算法-KNN
KNN相关概念及流程概念邻近算法,常见数据挖掘分类算法中最简单的方法之一。所谓K近邻,即K个距离最近的邻居,说的是每个样板都可以用它最近的K个邻居来代表。```## 类型是一种分类算法,基于实例的学习(instance-based learning)。 数据集实现已有分类和特征值,待收到新样本后直接进行处理,与急切学习(eager learning)相对应## 特点- 惰性学习(...原创 2020-02-28 00:14:42 · 503 阅读 · 0 评论 -
机器学习---K均值
1.K均值的步骤a.根据业务经验,尽量选取准确合理的质心b.然后对数据,即质点进行相应的聚合c.当质点进行聚合完毕后,或者达到指定的聚合标准阀值,算法结束d.若算發聚合完成后认为完全分组或未达到指定阀值.重复进行a,b步骤.2.K均值优缺点优点:算法易于理解,实现,速度快,可并行化,如spark 对应实现缺点:对质心进行硬性分析(非此即彼),无法进行后续的算法融原创 2017-12-21 10:21:05 · 401 阅读 · 0 评论