day1:python学习爬虫抓取与解析:链家网案例
- 实验目的:爬取链家网的一些内容
- 工具:requests和BeautifulSoup
1.准备工作
编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和BeautifulSoup两个。还有一个Time库,负责设置每次抓取的休息时间。
import requests
import time
from bs4 import BeautifulSoup
2.抓取列表页
首先,抓取前需要了解一下目标网站URL结构,链家网的二手房列表页面共有100个。
URL结构为https://hz.lianjia.com/ershoufang/pg2/ 其中
- hz表示城市
- /ershoufang/是频道名称
- pg2是页面码。
举个例子,我们现在要抓取的是杭州的二手房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分。将URL分为两部分,前面的固定部分赋值给url,后面的可变部分使用for循环遍历页面。
#设置列表页URL的固定部分
url='http://bj.lianjia.com/ershoufang/'
#设置页面页的可变部分
page=('pg')
这里,我们最好在http请求中设置一个头部信息,否则很容易被封