通过 rullib模块 爬取html内容
(1)urllib模块分类
# urllib.request:请求模块,用于打开和读取 URL;
# urllib.error:异常处理模块,捕获 urllib.error 抛出异常;
# urllib.parse:URL 解析,爬虫程序中用于处理 URL 地址;
# urllib.robotparser:解析 robots.txt 文件,判断目标站点哪些内容可爬,哪些不可以爬,但是用的很少。
(2)方法使用案例
主要方法:
urlopen(),
<1> 普通编码方式:
#目的:抓取您想要的网页,并将其保存至本地计算机
#步骤:
from urllib import request,parse
# 拼接 url 地址
url = 'http://www.baidu.com/s?wd={}'
want = input("请输入搜索内容:")
params = parse.quote(want) #quote()实现url编码
full_url = url.format(params)
# 发送请求
#1 重构请求头
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.9200'}