最简单的爬虫

weixin_43270619

于 2019-05-16 11:40:37 发布

阅读量102

点赞数

分类专栏：爬虫文章标签：爬虫入门小白

本文链接：https://blog.youkuaiyun.com/weixin_43270619/article/details/90260475

版权

爬虫专栏收录该内容

2 篇文章

订阅专栏

第一篇爬虫日志

写一篇最简单的爬虫。

本次爬虫任务分为以下六条：
1，导入urllib.request包
2，写入目标url
3，发送请求
4，爬取结果，读结果
5，设置解码方式
6，打印爬取网页的各类信息（type，geturl（），info，getcode）

代码如下

# 导入urllib包
import urllib.request
# 目标url
url = 'http://www.baidu.com'
# 发送请求
request = urllib.request.Request(url)
# 获取请求结果
response = urllib.request.urlopen(request)
# 读取结果
data = response.read()
#设置解码方式
data = data.decode('utf-8')
print(data)
# 打印爬取网页的各类信息
print(type(response))
print(response.info)
print(response.geturl())
print(response.getcode)

以上就是本篇文章的所有内容。