利用Python爬虫和Tableau分析链家网二手房信息

本文通过Python爬虫获取链家网上海中心城区二手房信息,进行数据清洗后在Tableau中进行可视化分析,研究房价与地理位置、房龄等因素的关系。分析显示,长宁区人口最密集,房龄分布大多在20年以上,均价内环高外环低,买卖活跃度与房龄呈负相关。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、明确分析的目标和思路

目的:近年来,房价时时刻刻牵动着广大老百姓的心,尤其是急需买房的刚需族和二胎家庭的置换族。本文希望通过对上海市中心城区二手房信息的分析,能够对房价和地理位置、房龄等因素的关系有一定的掌握。

分析思路:通过python爬取链家网二手房信息,经过数据清洗、规约等处理后,导入Tableau软件,进行可视化分析,得出结论。

 

2、爬取链家网二手房信息

以上海市中心城区为分析对象,包括黄浦、徐汇、长宁、静安(包括原静安和闸北)、普陀、虹口、杨浦。

首先,打开链家网,分析网页中的元素,如下图

标号1处是各行政区的小区数量,这个数字可用来控制python生成的小区列表页网址的数量;

标号2处是小区列表页各个小区的链接,可以获取链接的网页地址,进去各个小区的详情页,从而爬取各个小区的信息。

接下来,就可以用python编写爬虫程序了。

(1)导入需要用到的模板

import requests
import re
from bs4 import BeautifulSoup

(2)分析链家网小区页面的URL地址后,可以发现其中的规律,定义area_urls()函数,获取各个行政区小区页面的首页URL地址

def area_urls():
    areas = ['xuhui','putuo','yangpu','changning','huangpu','zhabei','hongkou','jingan']
    url_base = 'https://sh.lianjia.com/xiaoqu/{}/'
    for area in areas:
     
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值