R语言爬虫-上海市二手房信息
由于最近一直在关注房产信息,心血来潮想看一下最近上海市二手房的信息,所以利用R语言爬了1万+套二手房信息供参考,下面是抓取网页信息的代码,还请多多指教。
参考代码如下:
library(RCurl)
library(XML)
library(raster)
library(stringr)
# 读取上海二手房数据
start_url = "http://sh.centanet.com/ershoufang/g1/"
# 构造请求头
cust_header =c("User-Agent"="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0",
"Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language"="en-us",
"Connection"="keep-alive")
# 读取PageSouce
pagesource <- getURL(start_url,httpheader=cust_header,.encoding="utf-8")
# 解析页数
parseTotalPage <- function(pagesource){
doc <- htmlParse(pagesource)