将html_table2结果转化为tibble的最佳实践

最新推荐文章于 2025-12-20 09:41:05 发布

原创最新推荐文章于 2025-12-20 09:41:05 发布 · 427 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#html #html_table2 #tibble #R #爬虫代理 #代理IP #autohome.com.cn

爬虫代理同时被 3 个专栏收录

383 篇文章

订阅专栏

代理IP

260 篇文章

订阅专栏

R语言

10 篇文章

订阅专栏

在数据采集和分析中，爬取网页中的表格数据是一个常见任务。html_table2 是一个非常实用的 R 包，它可以帮助我们将 HTML 表格快速解析为数据框。然而，在实际应用中，数据清洗和转换往往是不可避免的。本文将分享如何高效地将 html_table2 的结果转化为更适合分析的 tibble 格式，并展示一个以采集汽车之家（https://www.autohome.com.cn/）汽车品牌和价格信息为例的完整实践。

1. 什么是 html_table2 和 tibble？

html_table2

html_table2 是 R 语言中解析 HTML 表格的主要工具之一，可以轻松从 HTML 文档中提取表格数据。

tibble

tibble 是 tidyverse 生态系统中的数据结构，类似于数据框，但提供了更优的打印格式、更强的可读性以及便捷的数据处理特性。

通过结合这两者，我们可以在数据采集后，直接进入高效的分析流程。

2. 转化为 tibble 的原因

可读性：tibble 显示时更加紧凑易读。
兼容性：许多 tidyverse 包对 tibble 的支持更佳。
操作性：tibble 提供了更强的列操作功能。

3. 最佳实践步骤

以下是将 html_table2 结果转化为 tibble 的最佳实践：

3.1 加载必要的 R 包

library(rvest)
library(dplyr)
library(tidyr)

3.2 爬取目标页面

以汽车之家为例，假设我们需要采集汽车品牌和价格信息。由于该网站对爬虫有限制，我们需要使用代理 IP 来实现。

3.3 使用代理 IP

以下是实现代理 IP 技术的代码示例：

# 设置代理参数 亿牛云爬虫代理 www.16yun.cn
proxy_url <- "http://proxy.16yun.cn"
proxy_port <- "12345"
proxy_user <- "your_username"
proxy_password <- "your_password"

# 构建代理 URL
proxy <- paste0("http://", proxy_user, ":", proxy_password, "@", proxy_url, ":", proxy_port)

# 爬取数据
url <- "https://www.autohome.com.cn/"
page <- read_html(url, options = list(proxy = proxy))

3.4 提取表格数据并转化为 tibble

假设我们需要提取某个包含汽车品牌和价格的表格。

# 提取表格
table <- page %>% html_node("table") %>% html_table2()

# 转换为 tibble
table_tibble <- as_tibble(table)

# 打印结果
print(table_tibble)

3.5 数据清洗与整理

表格数据常常需要进一步清理。例如：

# 数据清洗
cleaned_data <- table_tibble %>%
  rename(brand = 1, price = 2) %>%  # 重命名列
  mutate(price = as.numeric(gsub("[^0-9.]", "", price)))  # 提取价格中的数值

# 查看清洗后的数据
head(cleaned_data)

4. 案例分析：采集汽车之家数据

以下是完整的代码实现：

library(rvest)
library(dplyr)
library(tidyr)

# 设置代理参数 亿牛云爬虫代理 www.16yun.cn
proxy_url <-  "http://proxy.16yun.cn"
proxy_port <- "12345"
proxy_user <- "your_username"
proxy_password <- "your_password"
proxy <- paste0("http://", proxy_user, ":", proxy_password, "@", proxy_url, ":", proxy_port)

# 目标网址
url <- "https://www.autohome.com.cn/"

# 爬取页面
page <- read_html(url, options = list(proxy = proxy))

# 提取表格
table <- page %>% html_node("table") %>% html_table2()

# 转换为 tibble
table_tibble <- as_tibble(table)

# 数据清洗
cleaned_data <- table_tibble %>%
  rename(brand = 1, price = 2) %>%
  mutate(price = as.numeric(gsub("[^0-9.]", "", price)))

# 打印清洗后的数据
print(cleaned_data)