BeautifulSoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
最近学会了python的简单爬虫,就抓取一下链家网的二手房信息小试牛刀~
总结写在前头:
看URL结构→看提取信息的源代码→爬取并存进dataframe→清洗,变成能用的数据→写进CSV
会简单的使用BeautifulSoup库和requests库
爬取某一个网页的某一个信息得知道他的源代码
merge用来粘合两个dataframe
del用来删除dataframe的某一列
str(int)用来将数字转化为字符串,且‘’+‘’用于快速连接字符串
(获取字符串这里仍存在疑问)
1.所用到的库:
import requests
import time #负责设置每次抓取的休息时间,速度太快会被封IP
from bs4 import BeautifulSoup
import warnings
import pandas as pd
2.了解抓取网页的结构
url:https://gz.lianjia.com/ershoufang/ (第一页)
https://gz.lianjia.com/ershoufang/pg2/ (第二页之后)
gz为城市名
ershoufang(二手房)为众多分区之一
pgX/为显示当前为第几页,网站共显示100页
3.设置头部信息或添加代理
可以防止频繁访问被封IP
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1)