R言rvest包爬取南京二手房信息

本文介绍了如何使用R语言的rvest包结合SelectorGadget工具,爬取链家网站上的南京二手房信息。作者首先展示了爬取一页数据的代码,强调了处理字段信息的重要性,例如去除空格。接着,数据被导出到Excel进行进一步处理,并在Tableau中创建了可视化仪表板。提供了源代码和Tableau文件的下载链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      R语言的理论学习也已经有一段时间了,数据分析的基础就是要获取数据,在如今的互联网时代,获取网络数据成为了数据分析师必不可少的随身技能,本篇就模仿R语言爬虫利器:rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。

      先上此次爬虫的源代码:

library(xml2)
library(rvest)
library(stringr)
library(dplyr)
i <- 1:100
house_inf <- data.frame()
 #此处新建house_inf数据框很重要,如若不建立此数据框以下代码则只会爬取1页的信息
for (i in 1:100){
  webpage <- read_html(str_c("https://nj.lianjia.com/ershoufang/pg",i),encoding="UTF-8")
   #链家的编码格式为"UTF-8",如若爬取其他网站,可能有所变更
  house_name_html <- html_nodes(webpage,".houseInfo a")
   #爬取房屋名称
  house_name <- html_text(house_name_html)
   #将房屋数据转化为文本
  price_html <- html_nodes(webpage,".unitPrice span")
  price <- html_text(price_html)
  house_basic_html <- html_nodes(webpage,".houseInfo")
  house_basic <- html_text(house_basic_html)
  house_basic <- str_replace_all(house_basic," ","")
   #消除房屋基础信息中的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值