第一篇爬虫日志
写一篇最简单的爬虫。
本次爬虫任务分为以下六条:
1,导入urllib.request包
2,写入目标url
3,发送请求
4,爬取结果,读结果
5,设置解码方式
6,打印爬取网页的各类信息(type,geturl(),info,getcode)
代码如下
# 导入urllib包
import urllib.request
# 目标url
url = 'http://www.baidu.com'
# 发送请求
request = urllib.request.Request(url)
# 获取请求结果
response = urllib.request.urlopen(request)
# 读取结果
data = response.read()
#设置解码方式
data = data.decode('utf-8')
print(data)
# 打印爬取网页的各类信息
print(type(response))
print(response.info)
print(response.geturl())
print(response.getcode)
以上就是本篇文章的所有内容。