
Machine Learning
泽翾
机器学习/深度学习/数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
特征工程
目录特征组合特征选择特征提取主成分 分析线性判别 分析方法对比参考博客数据格式都一样了,缺失值异常值也都搞定了,特征编码也完成了,这个时候还不能进行交叉验证,还差一步,这一步就叫特征工程。主要涉及到了特征组合、特征选择、特征提取。需要首先说明的是,这里其实还有一个概念叫合成特征,特征组合是属于合成特征的,合成特征一般有以下三个方面。(1)将一个特征与其本身或...原创 2019-02-27 15:02:20 · 425 阅读 · 0 评论 -
数据处理——综述
当我们得到一份数据之后,一份新鲜的数据摆在你的面前,它可不是一盘可以直接吃的美味沙拉,这是一盘你刚从超市买回来的菜,需要经过一定的清洗和爆炒才能变成美食,供机器学习算法使用。所谓清洗,指的就是数据清洗。所谓爆炒,指的就是特征工程。经过了这两个漫长的步骤,你才可以开始使用各种模型去拟合数据,最终得到符合预期能力的模型。为什么说是漫长的步骤呢,因为通常在套用模型之前的这些数据准备工作,往往...原创 2019-02-26 22:15:58 · 786 阅读 · 0 评论 -
性能评估
目录分类模型评估指标精确率/错误率查准率/查全率混淆矩阵F1-scoreFβ ScoreP-R 曲线ROC 曲线AUC面积总结回归模型评估指标MAEMSERMSER2MAPE参考博客一言以蔽之,所谓性能评估,简单来说就是运用一些数学方法去衡量模型/算法用在这个数据集上,到底好不好(泛化能力)。通常我们在谈及机器学习算法...原创 2019-02-25 16:48:53 · 3125 阅读 · 0 评论 -
模型选择
目录交叉验证数据划分采样泛化能力简单交叉验证k折交叉验证留一法自助法参数调优网络搜索随机搜索贝叶斯优化算法拟合能力欠拟合过拟合参考博客交叉验证当数据清洗完毕,一切等待就绪时,我们如何能知道,到底什么算法才真正适合这份数据集呢?假设有多种可能的模型,而我们不能确定哪一种是最好的。那么我们就需要测试每一个模型训练后的泛化误...原创 2019-02-24 20:50:00 · 3323 阅读 · 0 评论 -
机器学习简介
机器学习是什么?个人理解 从大数据的角度出发,机器学习就是运用统计学、概率论、数学、计算机科学等相关领域的知识,利用算法模型从数据中发现知识的过程,说的高级一点,就是从数据视角窥探世界的奥秘。图片来源:https://zhuanlan.zhihu.com/p/34447991机器学习(or 数据挖掘)的步骤收集数据:网络爬虫、使用公开的数据源等; 准备数据:前期数...原创 2019-02-24 16:49:39 · 253 阅读 · 0 评论 -
逻辑回归
目录Q1:逻辑回归的原理Q2:逻辑回归为什么又叫对率回归Q3:逻辑回归为什么使用sigmoidQ4:信息熵的定义及推导过程Q5:逻辑回归损失函数的推导过程Q6:逻辑回归为什么要用交叉熵作为损失函数,为什么不用平方损失函数Q7:逻辑回归为什么可以表示概率,表示的是真实的概率吗?Q8:如何求解逻辑回归的损失函数Q9:逻辑回归如何防止过拟合Q10:逻辑回归如何做多...原创 2019-02-28 16:28:15 · 1154 阅读 · 0 评论 -
机器学习历史
目录综述监督学习无监督学习半监督学习深度学习强化学习参考博客综述最早的机器学习算法可以追溯到20世纪初,到今天为止,已经过去了100多年。总体上,机器学习算法可以分为有监督学习、无监督学习、半监督学习、强化学习4种类型。监督学习 又称为又教师学习,可以理解为有教师教机器的学习过程,说的专业点就是有数据标签,“标签”就是教师。无监督学习 就是自己...原创 2019-02-24 16:04:41 · 3682 阅读 · 0 评论 -
线性回归及其变式
目录Q1:线性回归的原理Q2:线性回归损失函数的推导过程Q3:求解线性回归损失函数的方法有哪些Q4:如何解决共线性(待补充)Q5:如何防止过拟合Q6:分布式训练怎么做(待补充)Q7:正则化的目的和方法Q8:为什么L1正则化能产生稀疏解,L2则不可以Q1:线性回归的原理线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计...原创 2019-02-27 20:47:38 · 1221 阅读 · 0 评论 -
监督学习——综述
目录生成模型判别模型常见的损失函数0-1损失绝对值损失log对数损失平均绝对误差平方损失均方根误差指数损失Hinge损失Huber损失softmax损失参考博客大致写完了数据处理相关的部分,接下来就要手撕各种算法了。先从有监督学习算法开始,大致包括以下算法:感知机线性回归+Ridge+Lasso+ElasticNet+正则化...原创 2019-02-27 17:07:02 · 2583 阅读 · 0 评论 -
数据清洗
目录特征编码序号编码独热编码二进制编码离散化缺失值填补异常值处理IQRZ-scoreDBSCAN孤立森林归一化标准化补充参考博客这里我们不说图片数据,图片数据的处理有专门的CV方向,我们就来说说文本数据或者“数字数据”。对于文本数据,显然计算机没办法处理,比如说“星期一”,计算机看不懂,怎么办?答:可以变成数字。注:其...原创 2019-02-27 10:55:35 · 8090 阅读 · 0 评论