R语言爬虫

R语言网页爬虫实战

1.简单爬取一个网页

url<-“http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml
tbls<-readHTMLTable(url)
sapply(tbls,nrow)
NULL NULL
93 8
pop<-readHTMLTable(url,which = 1)
#存储pop为CSV文档
write.csv(pop,file=”F:/pop.csv”)

2.爬取当当网图书排名及价格

library(xml2)
library(dplyr)
library(dplyr)
library(stringr))
#对爬取网页进行设定并创建数据框
i<-1:25
book_order<-data.frame()
#使用for循环进行批量数据爬取
for(i in 1:25){
+ web<-read_html(str_c(“http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-“,i),encoding=”gbk”)
#爬取书的排名,html_nodes从网页上选择节点,括号内的节点可以使用
#SelectorGadget工具得到谷歌上的网页节点,html_text()用于提取网页上的信息
+ book_rank<-web%>%html_nodes(‘.list_num’)%>%html_text()
#爬取书的名字
+ book_name<-web%>%html_nodes(‘.name a’)%>%html_text()
#爬取书的作者
+ book_author<-web%>%html_nodes(‘.star+ .publisher_info’)%>%html_text()
#爬取书的价格
+ book_price<-web%>%html_nodes(‘p:nth-child(1) .price_n’)%>%html_text()
#创建数据框并存储以上信息
+ book<-data_frame(book_rank,book_name,book_author,book_price)
+ book_order<-rbind(book_order,book)
+ }
#将数据写入csv文档
write.csv(book_order,file=”F:/R语言爬虫/book_order.csv”)

3.爬取招聘网站信息(用RStudio软件实现的)

3.1抓取一个页面
library(“rvest”)
library(“stringr”)#用于去除多余字符
#获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
#读取网页信息
web<-read_html(url0)
#获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text()
#去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title)
#获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text()
#去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)]
#工作地点
location<-company<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)]
#工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)]
#发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-time[2:length(Time)]
data<-data.frame(title,company,location,salary,Time)
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)
data
write.csv(data,file=”F:/R语言爬虫/zhaopin.csv”)

3.2爬取多个页面
library(“rvest”)#用于抓取网页
library(“stringr”)#用于去除没用的字符或空格
#获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
link<-list()
dat<-data.frame()
#计数器
n<-0
#加载下一页的网址
download_url<-function(url)
{
web<-read_html(url0)
link.next<-web %>% html_nodes(‘div.p_in li.bk a’) %>% html_attrs()
return(link.next)
}
#将函数封装起来
download_data<-function(url)
{
#读取网页信息
web<-read_html(url0)
#获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text()
#去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title)
#获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text()
#去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)]
#获取工作地点
location<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)]
#获取工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)]
#获取发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-Time[2:length(Time)]
return(data.frame(title,company,location,salary,Time))
}
link[[1]]<-(url0)#获取第一个网址
for(i in 2:5)
{
link[[i]]<-download_url(link[[i-1]])#获取2:5的网址
}
for(i in c(1:5))
{
if(i==1)
data<-download_data(link[i])#获取每一个页面的数据
else
#data里面有数据了,就可以直接进行数据框的拼接
data<-rbind(data,download_data(link[[i]]))
}
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)#对数据的表头重命名
write.csv(data,file=”F:/R语言爬虫/zhaopin1.csv”)#将数据读入csv文件
如图:
这里写图片描述

### 使用 R 语言进行网页爬虫开发的教程与实现方法 在使用 R 语言进行网页爬虫开发时,主要依赖于几个关键的包:`rvest`、`httr` 和 `RSelenium`。这些工具提供了从静态网页抓取数据到处理动态加载内容的完整解决方案。 #### 基础知识准备 在开始之前,理解网页的基本结构是必要的。网页通常由 HTML、XML 或 JSON 格式构成,这些格式的数据以树形结构组织[^2]。掌握 HTML 的基本语法和结构对于定位并提取所需数据至关重要。 #### 安装必要的包 要使用 R 进行网络爬虫开发,首先需要安装一些常用的包: ```r install.packages("rvest") install.packages("httr") install.packages("RSelenium") ``` 这些包分别负责解析 HTML 文档、发送 HTTP 请求以及控制浏览器模拟用户行为来获取动态内容[^1]。 #### 使用 rvest 抓取静态网页数据 `rvest` 是一个非常流行的 R 包,用于从静态网页中提取数据。它简化了 HTML 解析过程,并提供了一组简单易用的函数来选择和提取网页元素。 ```r library(rvest) # 读取网页 url <- "https://example.com" webpage <- read_html(url) # 提取所有链接 links <- webpage %>% html_nodes("a") %>% html_attr("href") # 打印链接 print(links) ``` 上述代码展示了如何从指定 URL 中提取所有的超链接[^3]。 #### 使用 httr 发送 HTTP 请求 有时直接访问网页可能不够灵活,或者需要处理更复杂的请求(如 POST 请求)。此时可以使用 `httr` 包来发送各种型的 HTTP 请求。 ```r library(httr) # 发送 GET 请求 response <- GET("https://api.example.com/data") # 检查响应状态码 status_code(response) # 获取响应内容 content <- content(response, "text") print(content) ``` 这段代码演示了如何通过 GET 请求获取 API 数据并检查其状态码和内容。 #### 处理动态加载内容 - RSelenium 对于那些依赖 JavaScript 动态加载内容的网站,传统的静态抓取方法无法获取完整的页面信息。这时就需要使用 `RSelenium` 来模拟浏览器行为。 ```r library(RSelenium) # 启动 Selenium 服务器 remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4445L, browserName = "firefox") remDr$open() # 导航到目标网页 remDr$navigate("https://dynamic-content-site.com") # 获取页面源码 page_source <- remDr$getPageSource()[[1]] print(page_source) # 关闭连接 remDr$close() ``` 此示例展示了如何启动 Firefox 浏览器实例,导航至特定网址,并获取渲染后的页面源代码。 #### 注意事项 - 在进行网页抓取时,请确保遵守目标网站的服务条款,避免对服务器造成过大负担。 - 对于频繁或大规模的数据抓取操作,建议设置合理的请求间隔时间,以减少被封禁的风险。 - 如果遇到反爬虫机制(如 CAPTCHA),可能需要采用更加高级的技术手段或联系网站管理员寻求合法授权。
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值