从数学角度看“大数据”
1.引言
首先声明,这篇文章不是科普,其中涉及的一些推论,在实际的应用中很有可能会用到。
无论是人工智能,还是机器学习、深度学习都是数据驱动,都非常都需要大量数据的支撑。直观上来看,数据越多,包含有用的信息也就越多,得到的模型可能也就越好。然而,也许需要一些更加严谨的数学证明,来得到这个结论。
下面,笔者将会从数学的角度来分析,为什么需要大量的数据作为支撑以及训练误差和泛化误差之间的关系。
2.为什么需要大量数据?
N个训练样本:
其中
是输入,
是输出。
f(X)表示模型,L(Y,f(X))表示损失函数,P(X,Y)表示联合分布。
损失函数L(Y,f(X))给出了单个样本的模型输出和真实输出之间的误差,我们的目标是使所有样本的误差之和最小。理论上损失函数的期望值(下文称期望风险)为,