爬取房天下(http://newhouse.cd.fang.com/house/s/)成都地区的新房信息。
打开http://newhouse.cd.fang.com/house/s/,F12进入控制台
点击控制台的左上角的按钮,这是你可以将鼠标移至房天下页面的任何一个地方然后单击,你就可以看到该地方在html代码中的位置,比如:我点击红色区域的文本,那么在控制台中就会出现该文本在html代码中的位置。分析html代码,了解页面结构,然后获取你需要爬取内容在html代码中的路径,再稍微做些整理,就可以得到你想要爬取的内容。我主要用的是beautifulsoup。
代码讲解:
1.此段代码主要是获取成都地区新房信息在此网站上分成了多少页,之后通过循环的方式将每一页的信息都爬取出来。
URL = 'http://newhouse.cd.fang.com/house/s/b91/'
HTML = requests.get(URL)
SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030')
last_page = SOUP.select('.last')
page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])
print(page_number)
2.此段代码是解析了我要获取的四项信息,包括:小区名字,所在详细地址,当前所