对于机器学习算法也使用了一段时间,现在进行一个系统的学习和总结,也给自己补缺补差,回头来看,发现对于机器学习的理解更加的清晰,更加有条理,在整体的思路上的把握也更加的完善,所以建议对于机器学习的学习一定要多实践,多回头查看、
【分类介绍】
监督学习:在监督学习中,我们只需要给定输入样本集,机器就可以从中推测出指定目标变量的可能结果。
监督学习使用两种类型的目标变量:标称型和数值型。
标称型:其目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类}
数值型:其目标变量可以从无限的数值集合中取值,如1.002、42.001、100.58等
【机器学习的简单概述】
利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。
机器学习的使用是非常广泛的,在这个过程中可以包括:人脸识别、手写数字识别、垃圾邮件过滤和亚马逊公司的产品推荐等。
【何为机器学习】
机器学习就是把无序的数据转换成有用的信息。
如何能够准确预测人类当前60%的行为?怎样预测人们所参与时间的结果呢?如何预测在美国大选中总统竞选的比例呢?
【机器学习的重要性】
二义性问题:“最大化利润”、“最小化风险”、“最好的市场策略”……..
如何解释数据、处理数据、从数据中抽取价值、展示和交流数据结果,这将是我们所讨论的重要问题。
【关键术语】
以鸟类分类系统为例:
基于四种特征的鸟物种分类表:
- | 体重 | 翼展 | 脚蹼 | 后背颜色 | 种类 |
---|---|---|---|---|---|
1 | 1000.1 | 125.0 | 无 | 棕色 | 红尾鸟 |
2 | 3000.7 | 200.0 | 无 | 灰色 | 鹭鹰 |
3 | 3300.0 | 220.3 | 无 | 灰色 | 鹭鹰 |
4 | 4100.0 | 136.0 | 有 | 黑色 | 普通千鸟 |
5 | 3.0 | 11.0 | 无 | 绿色 | 瑰丽蜂鸟 |
6 | 570.0 | 75.0 | 无 | 黑色 | 象牙啄木鸟 |
从表中可以发现,所使用的是鸟类的四种特征,前两种特征为数值型,第三种特征为二值型,第四种特征为自定义的枚举类型。
机器学习的首要任务就是分类,如何从数据中获取相关的数据,并对数据进行一定的处理,来对数据进行分类,并将结果应用到数据的预测当中,这也就是机器学习的根本目的。
对于分类来说,首要的就是如何进行算法的训练,通常为算法的输入大量已分类数据作为算法的训练集,训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是离散型的,而在回归算法中通常是连续型的。
【机器学习的主要任务】
机器学习的主要任务就是分类,将实例数据划分到合适的分类中。
机器学习的另一项任务就是回归,用于预测数值型数据,通过数据拟合曲线来进行数据拟合,预测可能的结果。
分类和回归都属于监督学习,监督学习就是必须首先要知道预测什么,即目标变量的分类信息。
而非监督学习,则是在数据上并没有类别信息,也不会给定目标值;在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类,将寻找描述数据统计值的过程称为密度估计。
用于执行分类、回归、聚类和密度估计的机器学习算法
监督学习的用途 | |
---|---|
k近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | Lasso最小回归系数估计 |
无监督学习的用途 | |
---|---|
k-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |
【算法的选择】
如果要预测目标变量的值,则可以选择监督学习算法,否则可以选择非监督学习算法。
对于监督学习算法:如果目标变量是离散型,如是/否、1/2/3、A/B/C等相关的数据,可以使用分类算法;
如果目标变量是连续型,如0.0~100.0、-999~999,则选择回归算法。
对于非监督学习算法:如果需要将数据划分为离散的组,则使用聚类算法;
如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
【开发机器学习应用程序的步骤】
1、收集数据
2、准备输入数据
3、分析输入数据
4、训练算法
5、测试算法
6、使用算法