数据处理与网络挖掘技术实践
1. 加权最小二乘法考虑方差
在回归分析中, statsmodels 库允许为每个数据点定义任意权重。异常值有时可以通过简单的经验法则轻松识别,其中一个法则基于四分位距(IQR),即数据的第一四分位数和第三四分位数之间的差值。利用四分位距,我们可以为加权最小二乘回归定义权重。
操作步骤 :
1. 导入必要的库 :
import dautil as dl
import matplotlib.pyplot as plt
import statsmodels.api as sm
import numpy as np
from IPython.display import HTML
- 加载数据并添加异常值 :
temp = dl.data.Weather.load()['TEMP'].dropna()
temp = dl.ts.groupby_yday(temp).mean()
# 恶意添加的异常值
temp.values[0] = 100
- 使用普通最小二乘法拟合模型 :
ntemp
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



