水很深的深度学习task02-优快云博客

基本概念

机器学习是指让计算机具有像人一样的学习和思考能力的技术的总称。具体来说是从已知数据中获得规律，并利用规律对未知数据进行预测的技术。

机器学习可以做如下两种分类：

在这里插入图片描述

误差是指算法实际预测输出与样本真实输出之间的差异。

由于我们无法知道总体样本会，所以我们只能尽量最小化训练误差，导致训练误差和泛化误差有可能存在明显差异。

过拟合是指模型能很好地拟合训练样本，而无法很好地拟合测试样本的现象，从而导致泛化性能下降。为防止“过拟合”，可以选择减少参数、降低模型复杂度、正则化等

欠拟合是指模型还没有很好地训练出数据的一般规律，模型拟合程度不高的现象。为防止“欠拟合”，可以选择调整参数、增加迭代深度、换用更加复杂的模型等。

在这里插入图片描述
**偏差(bias)**反映了模型在样本上的期望输出与真实标记之间的差距，即模型本身的精准度，反映的是模型本身的拟合能力。

**方差(variance)**反映了模型在不同训练数据集下学得的函数的输出与期望输出之间的误差，即模型的稳定性，反应的是模型的波动情况。

在这里插入图片描述
欠拟合：高偏差低方差

增加训练样本数量
减少特征维数，高维空间密度小
加入正则化项，使得模型更加平滑

线性回归是在样本属性和标签中找到一个线性关系的方法，根据训练数据找到一个线性模型，使得模型产生的预测值与样本标签的差距最小。

线性回归学习的对象就是权重向量𝑤和偏置向量𝑏。如果用最小均方误差来衡量预测值与样本标签的差距。

逻辑回归是利用𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数，将线性回归产生的预测值压缩到0和1之间。此时将𝑦视作样本为正例的可能性，本质上属于分类算法

支持向量机是有监督学习中最具有影响力的方法之一，是基于线性判别函数的一种模型。

SVM基本思想：对于线性可分的数据，能将训练样本划分开的超平面有很多，于是我们寻找“位于两类训练样本正中心的超平面”，即margin最大化。从直观上看，这种划分对训练样本局部扰动的承受性最好。事实上，这种划分的性能也表现较好。
在这里插入图片描述

决策树是一种基于树结构进行决策的机器学习方法，这恰是人类面临决策时一种很自然的处理机制。

在这些树的结构里，叶子节点给出类标而内部节点代表某个属性；
例如，银行在面对是否借贷给客户的问题时，通常会进行一系列的决策。银行会首先判断:客户的信贷声誉是否良好?良好的话，再判断客户是否有稳定的工作? 不良好的话，可能直接拒绝，也可能判断客户是否有可抵押物?..这种思考过程便是决策树的生成过程。
决策树的生成过程中，最重要的因素便是根节点的选择，即选择哪种特征作为决策因素：ID3算法使用信息增益作为准则。

组合多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。
随机森林用随机的方式建立起一棵棵决策树，然后由这些决策树组成一个森林，其中每棵决策树之间没有关联，当有一个新的样本输入时，就让每棵树独立的做出判断，按照多数原则决定该样本的分类结果。