Python爬虫实战：BeautifulSoup库&requests库-抓取链家网广州二手房信息

最新推荐文章于 2024-08-13 21:38:27 发布

肥仔旺

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量2.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： python 爬虫数据分析

本文链接：https://blog.youkuaiyun.com/weixin_42000526/article/details/81878312

本文介绍了使用Python的BeautifulSoup库和requests库抓取链家网广州二手房信息的过程，包括理解网页结构、设置头部信息、网页抓取、信息提取和数据清洗，最终将数据保存为CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BeautifulSoup的中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
最近学会了python的简单爬虫，就抓取一下链家网的二手房信息小试牛刀~

总结写在前头：

看URL结构→看提取信息的源代码→爬取并存进dataframe→清洗，变成能用的数据→写进CSV
会简单的使用BeautifulSoup库和requests库
爬取某一个网页的某一个信息得知道他的源代码
merge用来粘合两个dataframe
del用来删除dataframe的某一列
str(int)用来将数字转化为字符串，且‘’+‘’用于快速连接字符串
（获取字符串这里仍存在疑问）

1.所用到的库：

import requests
import time   #负责设置每次抓取的休息时间，速度太快会被封IP
from bs4 import BeautifulSoup
import warnings 
import pandas as pd

2.了解抓取网页的结构

url：https://gz.lianjia.com/ershoufang/ （第一页）
https://gz.lianjia.com/ershoufang/pg2/ （第二页之后）
gz为城市名
ershoufang（二手房）为众多分区之一
pgX/为显示当前为第几页，网站共显示100页

3.设置头部信息或添加代理

可以防止频繁访问被封IP

headers = {
  
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1)

最低0.47元/天解锁文章

200万优质内容无限畅学