Python-网络爬虫

原创

已于 2024-12-28 13:05:19 修改 · 1.4k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

于 2024-12-28 13:04:37 首次发布

随着网络的迅速发展，如何有效地提取并利用信息已经成为一个巨大的挑战。为了更高效地获取指定信息，需定向抓取并分析网页资源，从而促进了网络爬虫的发展。本章将介绍使用Python编写网络爬虫的方法。

学习目标：
理解网络爬虫的基本操作流程

掌握通过requests库进行数据抓取的方法

掌握通过正则表达式进行数据解析的方法

掌握运用beautifulsoup4库解析和处理数据的方法

1 概述

网络爬虫（Web Spider）又称网络蜘蛛或网络机器人，是一段用来实现自动采集网站数据的程序。网络爬虫不仅能够为搜索引擎采集网络信息，而且还可以作为定向信息采集器，定向采集某些网站中的特定信息。对于定向信息的爬取，网络爬虫主要采取数据抓取、数据解析、数据入库的操作流程。

（1）数据抓取：发送构造的HTTP请求，获得包含所需数据的HTTP响应；

（2）数据解析：对HTTP响应的原始数据进行分析、清洗，以提取出所需要的数据；

（3）数据入库：将数据进一步保存到数据库（或文本文件）中，用于构建知识库。

Python提供了许多与网络爬虫相关的库。其中，在数据抓取方面requests；在数据解析方面包括re（正则表达式），beautifulsoup4。

2 数据抓取

2.1 requests库概述

requests库提供了很多功能特性，几乎涵盖了所有Web服务的需求，包括URL获取、HTTP长连接和连接缓存、HTTP会话、浏览器式的SSL验证、身份认证、Cookie会话、文件分块上传、流下载、HTTP(S)代理功能、连接超时处理等。由于requests库是第三方库，因此，需要通过pip3指令进行安装，pip3安装命令如下：

pip install requests

通常需要使用国内代理：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ requests

安装完requests库后，在Python交互模式下输入导入requests库的语句：

import requests

如果没有提示错误，则说明安装成功。

2.2 使用requests库

网络爬虫工作流程的第一步是数据的抓取，也就是使用requests库实现发送HTTP请求和获取HTTP响应的内容。

2.2.1发送HTTP请求

requests库提供了几乎所有的HTTP请求方法：

调用get()函数是获取网页最常用的方式，在调用requests.get()函数后，返回的网页内容会保存为一个Response对象。

import requests #导入requests库
r = requests.get('http://www.baidu.com')	#使用get函数打开百度链接
print(type(r))					#查看返回值r的类型
#<class 'requests.models.Response'>

有时我们需要在URL中传递参数。

例如：在采集百度搜索结果时，需要传递wd参数（搜索词）。requests允许使用params关键字参数，以一个字符串字典来提供这些参数。

import requests				#导入requests库
payload = {'wd': 'Python'}			#定义字典
r = requests.get("http://www.baidu.com/s", params=payload)	#传入URL参数
print(r.url)							#输出URL的值
#'http://www.baidu.com/s?wd=Python'

用浏览器打开被编码的URL得到百度搜索关键字“Python”的结果。

2.2.2获取HTTP响应的内容

和浏览器的交互过程一样，requests.get()代表发送HTTP请求的过程，它返回的Response对象代表HTTP响应。我们可以通过Response对象的不同属性来获取不同内容，其语法格式如下：

对象名.属性名

Response对象的常用属性：

除了属性，Response对象还提供了两个常用的方法：

（1）json()方法：如果HTTP响应内容包含JSON格式数据，则该方法解析JSON数据。

提示：JSON的全称是“JavaScript Object Notation”，即JavaScript对象表示法，是一种基于文本又独立于语言的轻量级数据交换格式，易于阅读和理解。

例如：这段代码报错了，因为ip的问题，ip好像过期了

import requests			#导入requests库
r = requests.get('http://ip.taobao.com/service/getIpInfo.php?ip=140.205.220.96')
print(r.json())				#调用json()方法
#{'code': 0, 'data': {'ip': '122.88.60.28', 'country': '中国', 'area': '', 'region': '江苏', 'city': '南京', 'county': 'XX', 'isp': '铁通', 'country_id': 'CN', 'area_id': '', 'region_id': '320000', 'city_id': '320100', 'county_id': 'xx', 'isp_id': '100020'}}

（2）raise_for_status()方法：该方法能在非成功响应后产生异常，即只要返回的请求状态status_code不是200，该方法就会产生一个异常，可用try-except异常处理结果进行处理。

提示:一般情况下，需要在发送HTTP请求之后，调用raise_for_status()方法判断有无发生异常，如果没有发生异常，则进行数据的处理，否则不进行数据处理。

2.2.3 简单应用

例：爬取“http://www.bjjqe.com”网站的内容，并将爬取到的内容输出。

import requests				#导入requests库
#异常处理
try:
    r = requests.get('http://www.bjjqe.com')#使用get函数打开指定的url
    r.raise_for_status()			#如果状态不是200，则引发异常
    r.encoding = 'utf-8'			#更改编码方式
    print(r.text)				#用字符串的形式显示页面内容
except:
    print("网站连接失败！")		#发生异常则输出“网站连接失败！”

运行效果：