前面介绍的概率分布都有具体的函数形式,并且由少量的参数控制。这些参数的值可以由数据集确定,这被称为概率密度建模的参数化⽅法。参数化⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说,是⼀个很差的模型。例如,如果⽣成数据的过程是多峰的,那么这种分布不可能被⾼斯分布描述,因为它是单峰的。
⾸先考虑密度估计的直⽅图⽅法。我们集中于⼀元连续变量 x x x的情形,标准的直⽅图简单地把 x x x划分成宽度为 Δ i \Delta_i Δi的箱⼦,然后对落在第 i i i个箱⼦中的
前面介绍的概率分布都有具体的函数形式,并且由少量的参数控制。这些参数的值可以由数据集确定,这被称为概率密度建模的参数化⽅法。参数化⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说,是⼀个很差的模型。例如,如果⽣成数据的过程是多峰的,那么这种分布不可能被⾼斯分布描述,因为它是单峰的。
⾸先考虑密度估计的直⽅图⽅法。我们集中于⼀元连续变量 x x x的情形,标准的直⽅图简单地把 x x x划分成宽度为 Δ i \Delta_i Δi的箱⼦,然后对落在第 i i i个箱⼦中的