python 爬爬爬 基本函数~

本文介绍如何利用Python中的urllib2模块进行网页抓取操作,包括设置请求头、发送POST请求以及获取页面内容。此外还展示了如何下载图片等二进制文件并保存到本地。

 

 https://docs.python.org/2/howto/urllib2.html#data

http://zhuoqiang.me/python-urllib2-usage.html

 

 1 #coding=utf-8
 2 import os
 3 import urllib
 4 import urllib2
 5 import re
 6 import cookielib
 7 
 8 
 9 
10 httpHandler = urllib2.HTTPHandler(debuglevel=1)
11 httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
12 opener = urllib2.build_opener(httpHandler, httpsHandler)
13 urllib2.install_opener(opener)
14 
15 
16 headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}
17 values = {
18     #'username':'xxx',
19     #'password':'xxx',
20 }
21 postdata = urllib.urlencode(values)            # 表单
22 
23 
24 req = urllib2.Request(url='https://www.baidu.com/', data=postdata, headers=headers)
25 response = urllib2.urlopen(req)
26 html = response.read()
27 response.close()
28 print html
29 
30 # 图片等二进制数据
31 req = urllib2.Request(url='https://www.baidu.com/img/bd_logo1.png', data=postdata, headers=headers)
32 operate = opener.open(req)
33 data = operate.read()
34 operate.close()
35 
36 f = open('baidu.png', 'wb')
37 f.write(data)
38 f.flush()
39 f.close()

 

转载于:https://www.cnblogs.com/hangj/p/4680525.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值