【Python爬虫】urllib模块,User-agent

通过 rullib模块 爬取html内容

(1)urllib模块分类


# urllib.request:请求模块,用于打开和读取 URL;
# urllib.error:异常处理模块,捕获 urllib.error 抛出异常;
# urllib.parse:URL 解析,爬虫程序中用于处理 URL 地址;
# urllib.robotparser:解析 robots.txt 文件,判断目标站点哪些内容可爬,哪些不可以爬,但是用的很少。

(2)方法使用案例

主要方法:
urlopen(),
<1> 普通编码方式:


#目的:抓取您想要的网页,并将其保存至本地计算机
#步骤:

from urllib import request,parse

# 拼接 url 地址
url = 'http://www.baidu.com/s?wd={}'
want = input("请输入搜索内容:")
params = parse.quote(want)	#quote()实现url编码
full_url = url.format(params)

# 发送请求
#1 重构请求头
headers = {
   
   'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/46.0.2486.0 Safari/537.36 Edge/13.9200'}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值