机器学习
机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。
如下图给出了机器学习的基本概念。对一个预测任务,输入特征向量为x,输出标签为y,我们选择一个函数f(x, θ),通过学习算法A和一组训练样本D,找到一组最优的参数θ∗,得到最终的模型f(x, θ∗)。这样就可以对新的输入x进行预测。
(上图引自邱锡鹏的《神经网络与深度学习》)
机器学习任务要先需要根据样本数据来确定其输入空间X 和输出空间Y。不同机器学习任务的主要区别在于输出空间不同,例如二分类、多分类等问题。
输入空间 X 和输出空间 Y 构成了一个样本空间。对于样本空间中的样本(x, y) ∈ X × Y,假定存在一个未知的真实映射函数g : X → Y 使得y = g(x),或存在真实条件概率分布pr(y|x),机器学习的目标是找到一个模型来近似(尽可能去拟合)真实映射函数g(x)或真实条件概率分布pr(y|x),通过学习参数、优化等措施来不断近似。
在进行该类任务时,我们并不知道真实样本空间是什么样子的,所以根据学习的经验形成一个假设函数集合F(也可叫做假设空间),然后根据训练样本在该集合中的表现选择最优的理想假设函数f∈ F。
其中f(x, θ)为