R语言爬虫实践一

本文介绍如何使用R语言爬取上海市超过1万套二手房信息,以获取最新的房产市场参考数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

R语言爬虫-上海市二手房信息

由于最近一直在关注房产信息,心血来潮想看一下最近上海市二手房的信息,所以利用R语言爬了1万+套二手房信息供参考,下面是抓取网页信息的代码,还请多多指教。

参考代码如下:

library(RCurl)  
library(XML) 
library(raster)
library(stringr)
# 读取上海二手房数据  
start_url = "http://sh.centanet.com/ershoufang/g1/"
# 构造请求头  
cust_header =c("User-Agent"="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0",  
               "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
               "Accept-Language"="en-us",  
               "Connection"="keep-alive")  
# 读取PageSouce  
pagesource <- getURL(start_url,httpheader=cust_header,.encoding="utf-8")  
# 解析页数  
parseTotalPage <- function(pagesource){  
  doc <- htmlParse(pagesource)    
  
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值