机器学习定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,有个经验E后,经过P的评判,程序在处理T时的性能有所提高。经验E是机器上万次的自我练习的经验,任务T是下棋,性能度量值是P
回归问题是通过之前数据来推出一个连续的输出,分类问题是推出一组离散的结果。
单变量线性回归函数:只含有一个特征/输入变量
建模误差:模型所预测的智与训练集中的实际值之间的差距,目标是选出使建模误差的平方和最小的模型参数。
梯度下降:随机选一组参数,计算代价函数,找出下一个能让函数下将最多的参数组合,持续这么做直到到达局部最小值,不同初始参数组合可能有不同局部最小点。学习率决定了沿着让代价函数下降程度最大的方向迈出步子的大小。
批量梯度下降:批量梯度下降算法每迭代一步,要用到训练集的所有样本,最后得到的是一个全局最优解。
随机梯度下降:能够发现随机梯度的权值更新公式里调整项没有累加符号,说明随机梯度下降中只用到了训练集的一个样本,最后得到的可能是全局最优解,也可能是局部最优解。
正规方程:不需要多步梯度下降的情况下,也可以算出代价函数的最小值。数据量大的情况下,梯度下降更适合。
特征缩放:将所有特征尺度都缩放到-1到1之间。如果两个值数值相差太大,梯度下降算法需要经过非常多的迭代才能收敛。
逆矩阵:存在矩阵M以及矩阵N,假如M*N = 矩阵I(Identify Matrix单位矩阵),那么矩阵M和矩阵N互为逆矩阵.
奇异矩阵:用一个线性方程来展示两个相关联的特征值时或m样本数量<n特征数量,出现不可逆。
逻辑回归:一种分类算法,输出的值永远在0-1之间。
共轭梯度,局部优化法,有限内存局部优化法,限制变尺度法:比梯度下降快,不需要人工选择学习率。
过拟合:过于强调拟合原始数据,而丢失了算法的本质:预测新数据。解决:正则化,保留所有的特征,但减少参数的大小,参数过大,造成欠拟合,丢弃一些不能帮助正确预测的特征,或者使用模型选择的算法帮忙。
神经网络:神经重接实验,已能够间接证明,人脑皮层不同功能区域,似乎都具有某种相同的学习能力,用于学习其它不同区域的功能,而人工神经网络的目的正是模拟该学习功能。人工神经元具有多个输入(N阶向量X),和一个输出。运行在人工神经元上,将输入映射为输出的函数,称为激活函数。激活函数中,每一个输入特征值
都具有对应的参数
,以表明该输入对于输出的影响。参数
的集合(即
)称为权重。
反向传播算法:首先计算最后一层的误差,然后一层层求出各层的误差。
神经网络的使用步骤:1.选择网络结构,选择层数和单元个数,第一层单元个数为特征数量。2.通常情况下隐藏层越多越好,我们真正要决定的是隐藏层的层数和单元数。
神经网络的训练方法:1.参数的随机初始化2.利用正向传播的方法计算所有的h(x)3.编写计算代价函数的代码4.利用反向传播计算所有偏导函数5.利用数值检验方法检验这些偏导数6.使用优化算法来最小化代价函数。
机器学习诊断法:
- 验证集用于进一步确定模型中的超参数(例如正则项系数、ANN中隐含层的节点个数等)而测试集只是用于评估模型的精确度(即泛化能力)!
- 训练集误差和交叉验证集误差近似时:偏差/欠拟合。 训练集误差和交叉验证集误差大时:方差/过拟合。
- 正则化(选择值通常0-10之间呈2倍关系的值)
- 偏差:偏离了某个潜在的 “标准”,描述的是预测值(估计值)的期望与真实值之间的差距,偏差越大,越偏离真实数据。方差:随机变量在其期望值附近的 波动程度,描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。偏差用于描述模型的拟合能力,方差用于描述模型的稳定性.
- 获得更多的训练实例--解决高方差
- ,减少特征的数量--解决高方差
支持向量机(大间距分类器):支持向量机鲁棒性的原因,因为它努力用一个最大间距来分离样本。
聚类衡量指标:
- 均一性(准确率)一个簇中只包含一个类别的样本,则满足均一性。
- 完整性(召回率)同类别样本被归类到相同簇中,则满足完整性。
降维:
- 数据压缩,提高运行速度。