如何用R进行回归分析并存储结果：以县域数据为例

本文链接：https://blog.youkuaiyun.com/xzy123138/article/details/143653749

如何用R进行回归分析并存储结果：以县域数据为例
在数据分析中，回归分析和相关性分析是两种常见的统计方法。通过这些分析，我们可以发现不同变量之间的关系，并在实际应用中得出有用的结论。在本博文中，我将通过一个示例，展示如何在R中进行回归分析，计算相关性，并将结果存储在数据框中。我们将以县域数据为例，逐步解释整个过程。
背景
假设我们有一个包含多个县域（PAC）的数据框，其中包含三个变量：WY（变量1）、SC（变量2）、CS（变量3）。我们希望为每个县域计算以下内容：

1.相关性分析：计算变量之间的相关性，如 WY 和 SC、WY 和 CS、SC 和 CS 的相关系数。
2.回归分析：为每对变量进行线性回归，计算回归斜率。例如，SC ~ WY、CS ~ WY 和 CS ~ SC。
3.存储结果：将每个县域的相关性和回归斜率结果存储在一个数据框中。

步骤详解
1. 初始化数据框
首先，我们需要创建一个空的数据框（FZTQ），用来存储每个县域的相关性和回归分析结果。由于我们没有事先知道县域的数量，因此我们将预分配一个大小足够的数据框。
# 预分配一个空的数据框，避免逐步扩展
FZTQ <- data.frame(PAC = rep(NA, length(unique_pacs)),
Correlation_WY_SC = rep(NA, length(unique_pacs)),
Correlation_WY_CS = rep(NA, length(unique_pacs)),
Correlation_SC_CS = rep(NA, length(unique_pacs)),
OLS_WY_SC_Slope = rep(NA, length(unique_pacs)),
OLS_WY_CS_Slope = rep(NA, length(unique_pacs)),
OLS_SC_CS_Slope = rep(NA, length(unique_pacs)),
stringsAsFactors = FALSE)

解释：

4.PAC：表示县域代码的列。
5.Correlation_WY_SC、Correlation_WY_CS、Correlation_SC_CS：分别表示不同变量之间的相关性。
6.OLS_WY_SC_Slope、OLS_WY_CS_Slope、OLS_SC_CS_Slope：表示回归分析中的斜率（即回归方程的系数）。
7.stringsAsFactors = FALSE：防止将字符型列转换为因子型。

通过 length(unique_pacs)，我们知道县域的数量，然后为每个县域预留了一个空行。
2. 遍历每个县域，进行相关性分析和回归分析
接下来，我们对每个县域的数据进行分析，计算相关性和回归斜率，并将结果逐行填充到数据框中。
# 填充数据框
for (i in seq_along(unique_pacs)) {
pac_code <- unique_pacs[i] # 获取当前县域的代码
subset_data <- YW %>% filter(PAC == pac_code) # 获取当前县的数据子集

# 计算相关性矩阵
correlation_matrix <- cor(subset_data %>% select(WY, SC, CS), use = "complete.obs")

# 提取相关系数
cor_wy_sc <- correlation_matrix["WY", "SC"]
cor_wy_cs <- correlation_matrix["WY", "CS"]
cor_sc_cs <- correlation_matrix["SC", "CS"]

# 进行OLS回归并提取斜率
ols_wy_sc <- lm(SC ~ WY, data = subset_data)
ols_wy_cs <- lm(CS ~ WY, data = subset_data)
ols_sc_cs <- lm(CS ~ SC, data = subset_data)

# 提取回归斜率
slope_wy_sc <- coef(ols_wy_sc)[2] # WY -> SC
slope_wy_cs <- coef(ols_wy_cs)[2] # WY -> CS
slope_sc_cs <- coef(ols_sc_cs)[2] # SC -> CS

# 将结果填充到FZTQ的对应行
FZTQ[i, ] <- c(pac_code, cor_wy_sc, cor_wy_cs, cor_sc_cs, slope_wy_sc, slope_wy_cs, slope_sc_cs)
}

解释：

8.我们首先通过 unique_pacs 获取所有唯一的县域代码，然后通过 filter() 函数从原始数据框 YW 中提取出每个县域的子集 subset_data。
9.相关性计算：我们使用 cor() 函数计算县域内 WY、SC 和 CS 之间的相关性，得到了一个相关性矩阵 correlation_matrix。通过访问矩阵的特定位置，提取了需要的相关系数。
10.回归分析：通过 lm() 函数进行线性回归，模型格式为因变量 ~ 自变量。对于每个回归模型，我们提取了斜率（coef()[2]），即回归系数。
11.最后，我们将所有计算结果填充到数据框 FZTQ 中的相应位置。

3. 查看结果
完成所有计算后，FZTQ 数据框中将包含每个县域的相关性和回归斜率信息。我们可以使用 head() 查看前几行结果：
# 查看最终结果
head(FZTQ)

这将展示出每个县域的相关性和回归斜率结果，数据框的每一行对应一个县域，每一列则包含该县域的分析结果。
完整代码总结
# 预分配一个空的数据框，避免逐步扩展
FZTQ <- data.frame(PAC = rep(NA, length(unique_pacs)),
Correlation_WY_SC = rep(NA, length(unique_pacs)),
Correlation_WY_CS = rep(NA, length(unique_pacs)),
Correlation_SC_CS = rep(NA, length(unique_pacs)),
OLS_WY_SC_Slope = rep(NA, length(unique_pacs)),
OLS_WY_CS_Slope = rep(NA, length(unique_pacs)),
OLS_SC_CS_Slope = rep(NA, length(unique_pacs)),
stringsAsFactors = FALSE)

# 填充数据框
for (i in seq_along(unique_pacs)) {
pac_code <- unique_pacs[i]
subset_data <- YW %>% filter(PAC == pac_code)

correlation_matrix <- cor(subset_data %>% select(WY, SC, CS), use = "complete.obs")

cor_wy_sc <- correlation_matrix["WY", "SC"]
cor_wy_cs <- correlation_matrix["WY", "CS"]
cor_sc_cs <- correlation_matrix["SC", "CS"]

ols_wy_sc <- lm(SC ~ WY, data = subset_data)
ols_wy_cs <- lm(CS ~ WY, data = subset_data)
ols_sc_cs <- lm(CS ~ SC, data = subset_data)

slope_wy_sc <- coef(ols_wy_sc)[2]
slope_wy_cs <- coef(ols_wy_cs)[2]
slope_sc_cs <- coef(ols_sc_cs)[2]

# 将结果填充到FZTQ的对应行
FZTQ[i, ] <- c(pac_code, cor_wy_sc, cor_wy_cs, cor_sc_cs, slope_wy_sc, slope_wy_cs, slope_sc_cs)
}

# 查看最终结果
head(FZTQ)

总结
本文展示了如何在R中通过回归分析和相关性分析，结合循环处理，为多个县域的数据生成分析结果并存储。通过这个过程，我们能够高效地计算每个县域的相关性系数和回归斜率，并将结果整理成一个清晰的数据框，方便后续分析和可视化。如果你的数据量很大，或者需要处理更多复杂的模型，类似的方法也能灵活应用。