1. 机器学习的要素和深度学习的要素分别是什么?
A: 机器学习的三要素简单来说就是模型、策略和算法.
模型:是一个数学函数
策略:就是使用一种什么样的评价来度量模型训练过程中学习好坏的方法,同时根据这个方法去调整模型的参数。举个例子比如损失函数。
算法:指模型的计算方法,比如梯度下降
在机器学习界流行这样一句话:数据和特征决定了机器学习算法的上界,而模型和算法只是逼近这个上界而已,这说明一个事实,那就是我们不论我们的机器学习模型识别效果多么准确,如果没有好的特征,也等于做无用功。也就是说,数据和特征确定后,算法最好能做成什么样基本已经确定了。此时的算法好坏的差别可能在于谁更接近基于这个数据和特征的的效果上限。
比如你发现一组数据符合一条直线,这个直线就是数据体现出来的特征,根据这个特征你发现直线的函数会比较适合,这样你就选定了模型,然后选择策略和算法去求出函数的系数,最后得到确定的模型,拟合和回归就不在话下。这是可以用条线表示的情况(在机器学习领域称其为线性,对于非线性特征就是到了深度学习的领域)
机器学习的风险论:而机器学习中也有经验风险与结构风险,在这两种风险中,实际上在真正的常见算法的实现过程中使用的原则是结构风险最小。其中最小化损失函数对应的参数 θ 就叫做经验风险最小化。该策略认为经验风险最小的模型就是最优的模型,也就是minf∈F1NN∑i=1L(yi,f(xi))。在这个式子中,F是假设空间。统计学中的极大似然估计就是经验风险最小化的一个典型的例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化与极大似然估计等价。虽然在样本数量足够大的情况下,经验风险最小化求解出来的模型能够取得不错的预测效果,但是当训练数据集也就是样本容量比较小时,基于经验风险最小化训练出来的模型往往容易过拟合。
B:深度学习理论上要素是一致的,不过在步骤上有所不同,比如特征的提取步骤可以跳过,比如非监督学习可以不提供特征,让算法自动提取。这就是为什么早期的神经网络大部分都是无监督学习
2. 机器学习的步骤和深度学习的步骤分别是怎样的?
收集数据(数据的采集这个应该不是问题,数据库,爬虫)
处理数据并可视化(总结和积累)
根据可视化的结果选择合适的模型(线性还是非线性,是否有已经存在的模型,这个需要积累,对数学要非常敏感)
训练(这个要着重学习)
评估模型(这个也比较容易,用适当的数据去验证看准确率)
参数微调(这个目前了解不多,应该也很重要)
预测
深度学习大同小异
3. 步骤中需要哪些条件?
按照步骤,需要:
数据
数据处理的方法及应用(数据可视化,降维等等,图像的边缘化….)
合适的模型
训练(训练需要合适的策略和算法,这个也要找)
参数微调(经验和数学基础)
数据
总结:需求和市场总是挂钩的,有些人选择了去产生和搜集数据去卖,有些去研究据处理的方法,也有不断的去发现更好的模型(神经网络的发展就是从ANN到BP模型到CNN,YOLO这都是不断发现的模型),也有的直接卖结果。写下这篇文章是从系统的角度去寻找一个学习的方向,去理解机器学习。不知道有没有机会去做,但准备着好比书到用时方恨少。占用了少量考研复习的时间,最后对自己说一句加油。坚持坚持在坚持!