用Python写爬虫（2）——Urllib库

Python爬虫基础

最新推荐文章于 2024-05-24 16:07:35 发布

原创最新推荐文章于 2024-05-24 16:07:35 发布 · 190 阅读

0 ·

CC 4.0 BY-SA版权

Python探险专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何使用Python的Urllib库进行网页抓取。包括基本的网页内容读取、保存至本地的方法，以及如何获取网页状态码等信息。

本节我们练习使用Urllib库抓取网页

Urllib库是Python中用来操作URL的模块，在Python2和Python3中有一定的差异。我们使用的是Python3，具体两者之间的差异我们就不多说了。

导入模块urllib.request，这个模块用来打开和获取URL的。

import urllib.request

使用urllib.request.urlopen打开并爬取一个网页。

file=urllib.request.urlopen("http://www.baidu.com")

使用file.read()读取网页内容，也可以使用file.readline()读取一行内容

data=file.read()
dataline=file.readline()

输出爬取的内容

print(dataline)
print(data)

file.read()读取文件全部内容，把内容赋给一个字符串变量；file.readlines()读取文件全部内容，但是它把内容赋给一个列表变量。file.readline()读取一行内容。

将爬取的网页以网页格式保存在本地：

爬取一个网页并赋给一个变量；
以写入的方式打开一个本地文件，命名为*.html等格式。
将变量写入该文件。
关闭该文件。

import urllib.request
file=urllib.request.urlopen("http://www.baidu.com")
data=file.read()
print(data)

fhandle=open("D:/Pythonlearning/1.html","wb")
fhandle.write(data)
fhandle.close()

也可以使用urllib.request中的urlretrieve()函数：

filename=urllib.request.urlretrieve("http://edu.51cto.com",filename="D:/Pythonlearning/2.html")
urllib.request.urlcleanup()  #清除缓存

urllib的其他常见用法：

返回与当前环境有关的信息：

file.info()  #爬取的网页.info

file为爬取到的网页赋值的变量，“爬取的网页.info”.

返回网页的状态码：

file.getcode()  #爬取的网页.info

获取爬取的URL地址：

file.geturl()

返回：‘http://www.baidu.com’