爬虫过程中经常会用到一个叫urllib的包,但在Python2.X版本中与Python3.X版本中有所区别
Python2.X版本:
- Urllib库
- Urllin2库
在pyhon3.x中,对原来的urllib做了很多的修改。将Request,error,urllib2等相关功能都归一到了urllib中。具体细节如下:
Python3.X版本:
- Urllib库
部分变动如下表: Python3对应于原来的Python2.X的功能
Python3.X | Python2.X |
---|---|
import urllib.request,urllib.error | import urllib2 |
import urllib.request,urllib.error,urllib.parse | import urllib |
import urllib.parse | import urlparse |
import urllib.request.urlopen | import urlopen |
import urllib.parse.urlencode | import urlencode |
import urllib.request.quote | import urllib.quote |
import http.CookieJar | import cookielib.CookieJar |
import urllib.request.Request | import urllib2.Request |
urllib.error.URLError as e | urllib.URLError,e |
urllib.error.HTTPError as e | urllib.HTTPError,e |
简单应用:
import urllib.request
file = urllib.request.urlopen('https://blog.youkuaiyun.com/qq_30622831')
dataset = file.read() #读取全部内容
dataline = file.readline() #逐行读取内容
data_handle = open("./csdn.html","wb") #将爬取的网页保存在本地
data_handle.write(dataset)
data_handle.close()