线性模型
线性回归模型
在线性回归中,使用线性方程组对数据中的观测值进行建模。具体来说,数据中的不同维度使用一组线性方程组相互关联,其中系数需要以数据驱动的方式学习。
由于观测值的数目通常比数据的维数大得多,这个方程组是一个过定over-determined的方程组,不能精确求解(即零误差)。因此,这些模型学习系数,使数据点的偏差与线性模型预测的值的平方误差最小化。
回归分析使时间序列分析中的一个常见场景。回归分析需要从一组自变量(自变量也称为解释变量)中学习特定因变量的值。
这是一个具有上下文数据类型的共同主题,其中一些属性(例如时间、空间位置或相邻系列值)被视为独立的,而另一些属性(例如温度或环境测量值)被视为依赖的。
对于多维数据,所有维度都以均匀的方式处理,并估计所有属性之间的最佳拟合线性关系。
考虑一个领域,比如时间和空间数据,其中属性被划分为上下文属性和行为属性。在这种情况下,一个特定的行为属性值通常被预测为其上下文邻域中行为属性的线性函数,以确定与期望值的偏差。这是通过从时间或空间数据中构造多维数据集来实现的,其中特定的行为属性值(例如,当前时间的温度)被视为因变量,其上下文邻域行为值(例如。,将前一窗口的温度作为自变量。因此,预测因变量的重要性在估计偏差,从而量化异常值得分时至关重要。在这种情况下,离群值是根据预测因变量的误差来定义的,而自变量之间的相互关系中的异常则被认为不太重要。因此,优化过程的重点是最小化因变量的预测误差,以建立正态数据模型。与此模型的偏差被标记为异常值。
PCA在做特征值分解之后