urllib包:
urllib提供了一系列用于操作URL的功能 他有四个模块:
•urllib.request 主要用来打开或者读取url
•urllib.error 在请求中产生的一些错误
•urllib.parse 用于处理url
•urllib.robotparser 用于解析robots.txt文件
模块导入:
注意导入时不能只导入urllib,而要导入urllib包下的相应的模块
import rllib.request
urllib.request.urlopen学习
urllib.request.urlopen 用来获取网页信息,其原型为:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
函数返回值为文件对象,约定赋值给response变量
对象可使用方法:
- response.geturl() 返回网址
- response.info() 返回头文件
- response.getcode() 返回状态码(200正常,404丢失)
反回的response对象类似于文件对象,因此可以用文件的方法读取
#读取二进制字符
print(response.read())
#转化成网页代码
print(response.read().decode('utf-8'))