【漫话机器学习系列】004.赤池信息量准则（AIC：Akaike Information Criterion)

最新推荐文章于 2025-01-02 18:43:02 发布

原创最新推荐文章于 2025-01-02 18:43:02 发布 · 2.3k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法 #学习

漫话机器学习系列专辑专栏收录该内容

277 篇文章

订阅专栏

赤池信息量准则（Akaike Information Criterion, AIC）

1. 概念

赤池信息量准则（AIC）是一种用于模型选择的统计方法，由赤池弘次（Hirotugu Akaike）于1974年提出。AIC 平衡了模型的拟合度和复杂性，用来评估一组候选模型中哪一个模型更适合数据。其核心思想是，在追求模型良好拟合的同时，避免模型过于复杂（过拟合）。

2. 公式

AIC 的公式为：

$AIC = 2k - 2\ln(\hat{L})$

其中：

k：模型中的参数个数（自由度）。
$\hat{L}$ ：模型的最大似然估计值。
ln( $\hat{L}$ ) 是对数似然值。

3. 公式解释

模型拟合度 $-2\ln(\hat{L})$ ：
- 最大似然估计值 L 越大，表明模型对数据的拟合越好， $-\ln(\hat{L})$ 越小。
- 因此，对数据的拟合程度可以通过 $-2\ln(\hat{L})$ 来衡量。
复杂度惩罚（2k）：
- k 是模型的参数数量，表示模型复杂度。
- 参数数量越多，模型越复杂，惩罚越大，以避免选择过于复杂的模型。
目标：
- AIC 的目标是最小化模型的 AIC 值，找到既能很好拟合数据又不过于复杂的模型。

4. AIC 的目标

AIC 的目的是在一组候选模型中选择出那个最能平衡拟合优度与模型复杂度的模型。具体而言：

模型拟合：模型的拟合程度越好（即 $\hat{L}$ 越大），AIC 值越小。
模型复杂度：模型的参数个数越多（即 k 越大），AIC 值越大。

通过 AIC，我们希望选出那些能够充分拟合数据的模型，但又不过于复杂，避免过拟合的发生。

5. AIC 的性质

最小化 AIC：AIC 值越小的模型越好。AIC 值是一个相对标准，不同模型的 AIC 值可以进行比较，但不能直接解释单个模型的 AIC 值。
惩罚复杂度：AIC 对模型的参数数量进行惩罚，因此它有助于避免过拟合问题。即使一个模型拟合得非常好（对数似然很高），如果它使用了过多的参数，AIC 值也会较高。
用于模型选择：AIC 是模型选择的标准之一，尤其是在不同的统计模型之间进行比较时，AIC 是一种常见的评判标准。

6. 使用场景

模型选择：
- 比较不同模型的 AIC 值，AIC 越小的模型越优。
- 可用于线性回归、逻辑回归、时间序列分析等领域的模型选择。
模型优劣评估：
- 适合不同复杂程度的模型对同一数据集的拟合效果比较。
限制：
- AIC 不适用于非嵌套模型比较（模型间结构差异较大时效果不佳）。
- 需要模型具有相同的因变量和相似的最大似然框架。

7. Python 实现

以下代码以线性回归为例，计算 AIC 值：

import numpy as np
from sklearn.linear_model import LinearRegression

# 示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.1, 2.0, 2.9, 4.1, 5.2])

# 拟合线性回归模型
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# 计算最大似然估计值 L
n = len(y)
residuals = y - y_pred
rss = np.sum(residuals**2)  # 残差平方和
sigma2 = rss / n  # 估计的残差方差
log_likelihood = -n / 2 * np.log(2 * np.pi * sigma2) - rss / (2 * sigma2)

# 参数个数
k = 2  # 截距和斜率

# 计算 AIC
AIC = 2 * k - 2 * log_likelihood

print(f"AIC 值: {AIC:.4f}")

输出结果

AIC 值: -5.5906

以 Python 中的 statsmodels 库为例，演示如何计算 AIC：

import numpy as np
import statsmodels.api as sm

# 生成数据
np.random.seed(0)
X = np.random.rand(100, 3)
y = X @ np.array([1, 2, 3]) + 5 + np.random.randn(100)

# 拟合一个线性回归模型
X = sm.add_constant(X)  # 添加常数项
model = sm.OLS(y, X)
result = model.fit()

# 打印模型的AIC值
print(f'AIC: {result.aic}')

输出结果