正文
输入数据集
数据采集表组织格式:
样本特征 可以是有明确语义的(如细胞表达的基因就是描述细胞的特征);也可以是非常抽象的(如图像识别时候图像的每个像素点就可以看作描述图像的特征,28*28的图像就有784个特征)。
特征空间(feature sapce):样本对象的本质是测量特征所组成的空间中的一个点。
分类任务 的本质就是在特征空间的切分
学习算法的输出结果极大程度依赖数据的输入特征可靠性。
有监督机器学习的主要任务
- 分类任务
① 二分类(二选一任务[0/1]),现实中大部分任务都是典型的分类任务;
② 多分类(多选一任务),数字识别、图像识别、评级…;多分类任务可以与二分类任务进行转换;
③ 多标签分类,如识对一张图像内的人、物都进行判别,从而综合这些信息对图片传达的语义进行判断; - 回归任务
该类任务的结果输出是一个连续数值,而非一个类别。如果判断根据房屋所在环境判断其价格;
在算法上,有些仅用于回归问题或分类问题,也有存在能同时解决这两类问题的。
机器学习算法分类
-
监督学习:输入的训练数据集带有分类“标签”或者“答案”。
k近邻、线性回归和多项式回归、逻辑回归、SVM、决策树和随机森林 -
非监督学习:输入的训练数据集不带有"标记"。通常用于