爬虫：urllib.request方法获取某一网页html信息

江南曾听风

于 2022-06-10 13:56:18 发布

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫数据挖掘 Python 文章标签：爬虫 html python

本文链接：https://blog.youkuaiyun.com/qq_41116319/article/details/125220246

文章目录

一、问题描述
二、问题思路
三、问题解决

一、问题描述

上篇文章中，使用requests方法抓取某一网页的信息，最近又学了另外一种方法，即urllib.request方法。

二、问题思路

导入所需数据库
获取所需网页地址链接和头部信息，进行封装，将自己伪装成浏览器，这样做的目的是防止获取信息网页的拦截。
请求网页连接并获取网页信息（整个网页的html），假设获取网页超时，则程序会报错（urllb.error.URLError），所以需要进行报错处理一下（用try、except）

三、问题解决

# 先导入数据库
import urllib.request


# 获取所需网页地址连接
url = "http://www.douban.com"


# 模拟头部信息，向服务器发送消息
headers = {
   
   
"User-Agent": "Mozilla/5.0 (Windows NT 10.

最低0.47元/天解锁文章

200万优质内容无限畅学