前言:作者书写《机器学习实战》读书笔记一系列的文章所采用的环境为Windows,软件为VScode(Visual Studio Code),编程语言为Python(3.7.0版本),本文意在记录作者学习机器学习的过程,如果有错误的地方可以私信作者,再次感谢大家对作者的支持!
第一章:机器学习基础
1.1何谓机器学习
机器学习就是把无数的数据转换成有用的信息。
机器学习横跨计算机科学、工程技术和统计学等多个学科,对于任何需要解释并操作数据的领域都有所裨益。
机器学习用到了统计学知识,因为现实世界中很多例子我们无法为其建立精确的数学模型,所以需要统计学工具。
1.2专业术语
特征、分类、训练集、目标变量、测试数据、知识表示等
有兴趣的朋友可以看我写的另一篇文章,附上链接:https://blog.youkuaiyun.com/qq_38172282/article/details/90813120
1.3机器学习的主要任务
监督学习:分类和回归。
无监督学习:聚类和密度估计。
1.4如何选择合适的算法
- 首先考虑使用机器学习的目的。
- 考虑分析或收集的数据是离散型还是连续型。离散型适合分类,连续型适合回归。
- 是否考虑将数据划分成离散的,可以使用无监督学习中的聚类;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
1.5开发机器学习应用程序的步骤
1)收集数据
2)准备输入数据
3)分析输入数据:通过一维、二维、三维图形展示数据也是不错的方法,但是一般是多维的。但是多维也可以通过图形化展示的。这一步的作用主要是确保没有垃圾数据。
4)训练算法:机器学习算法从这一步才真正开始学习。
5)测试算法
6)使用算法:将机器学习算法转换为应用程序。
1.6Python语言的优势
(1)Python的语法清晰;(2)易于操作纯文本文件;(3)使用广泛,存在大量的开发文档。
和MATLAB相比Python是免费的,其插件是开源的。 和Java、C相比,Python不需要编写大量冗余的代码。
Python唯一的不足就是性能问题
1.7Numpy函数库基础
安装Numpy库极为简单,Windows环境下在安装好Python后,点击电脑键盘上的"WIN+R"键,输入cmd,敲击回车
进入命令行程序后,直接输入pip install Numpy,点击回车,即可安装Numpy库。如下图所示
图中第一个红色圈上面一行代码,表示电脑已经安装好Numpy库。
下面为测试部分Numpy库的代码,由于书上的部分代码适用于Python2.0,不适用于最新版本,如果您选择的是Python3.0以上版本,请按照下面的代码进行学习。
import numpy as np
#生成4行4列随机数组
sample1 = np.random.random((4,4))
print(sample1,"\n")
#生成4行3列从0到10的随机整数
sample2 = np.random.randint(0,10,size=(4,3))
print(sample2,"\n")
#数组变矩阵
sample3 = np.mat(sample1)
print(sample3,"\n")
#矩阵求逆,将下面中的.I换成.T就变化为矩阵转置
A = np.matrix([[1,2],[3,4]])
sample4 = A.I #有兴趣可以尝试一下转置
print(A)
print(sample4,"\n")
#矩阵相乘,仍然采用上述创建好的矩阵A
sample5 = A*A
print(sample5,"\n")
#创建单位矩阵
sample6 = np.eye(4,4)
print(sample6,"\n")
上述代码均为测试好的代码,如有疑问,欢迎私信!