1、明确分析的目标和思路
目的:近年来,房价时时刻刻牵动着广大老百姓的心,尤其是急需买房的刚需族和二胎家庭的置换族。本文希望通过对上海市中心城区二手房信息的分析,能够对房价和地理位置、房龄等因素的关系有一定的掌握。
分析思路:通过python爬取链家网二手房信息,经过数据清洗、规约等处理后,导入Tableau软件,进行可视化分析,得出结论。
2、爬取链家网二手房信息
以上海市中心城区为分析对象,包括黄浦、徐汇、长宁、静安(包括原静安和闸北)、普陀、虹口、杨浦。
首先,打开链家网,分析网页中的元素,如下图
标号1处是各行政区的小区数量,这个数字可用来控制python生成的小区列表页网址的数量;
标号2处是小区列表页各个小区的链接,可以获取链接的网页地址,进去各个小区的详情页,从而爬取各个小区的信息。
接下来,就可以用python编写爬虫程序了。
(1)导入需要用到的模板
import requests
import re
from bs4 import BeautifulSoup
(2)分析链家网小区页面的URL地址后,可以发现其中的规律,定义area_urls()函数,获取各个行政区小区页面的首页URL地址
def area_urls():
areas = ['xuhui','putuo','yangpu','changning','huangpu','zhabei','hongkou','jingan']
url_base = 'https://sh.lianjia.com/xiaoqu/{}/'
for area in areas: