数据挖掘(异常检测)task3-线性模型

本文介绍了线性模型在数据挖掘异常检测任务中的作用,包括线性回归模型的构建和评估。通过分析残差的自相关函数图、直方图、预测变量与残差的关系图等,检查模型假设是否满足。同时探讨了非线性方法如Autoencoder在克服线性模型限制上的应用,以及异常值点和强影响点的识别与处理策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性模型

线性回归模型
在线性回归中,使用线性方程组对数据中的观测值进行建模。具体来说,数据中的不同维度使用一组线性方程组相互关联,其中系数需要以数据驱动的方式学习。

由于观测值的数目通常比数据的维数大得多,这个方程组是一个过定over-determined的方程组,不能精确求解(即零误差)。因此,这些模型学习系数,使数据点的偏差与线性模型预测的值的平方误差最小化。

回归分析使时间序列分析中的一个常见场景。回归分析需要从一组自变量(自变量也称为解释变量)中学习特定因变量的值。

这是一个具有上下文数据类型的共同主题,其中一些属性(例如时间、空间位置或相邻系列值)被视为独立的,而另一些属性(例如温度或环境测量值)被视为依赖的。
对于多维数据,所有维度都以均匀的方式处理,并估计所有属性之间的最佳拟合线性关系。
考虑一个领域,比如时间和空间数据,其中属性被划分为上下文属性和行为属性。在这种情况下,一个特定的行为属性值通常被预测为其上下文邻域中行为属性的线性函数,以确定与期望值的偏差。这是通过从时间或空间数据中构造多维数据集来实现的,其中特定的行为属性值(例如,当前时间的温度)被视为因变量,其上下文邻域行为值(例如。,将前一窗口的温度作为自变量。因此,预测因变量的重要性在估计偏差,从而量化异常值得分时至关重要。在这种情况下,离群值是根据预测因变量的误差来定义的,而自变量之间的相互关系中的异常则被认为不太重要。因此,优化过程的重点是最小化因变量的预测误差,以建立正态数据模型。与此模型的偏差被标记为异常值。

PCA在做特征值分解之后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值