# -*- coding:utf-8 -*-
import urllib2
response = urllib2.urlopen('http://www.baidu.com')
baidu=response.read();
print baidu
上面这段代码输出的结果和访问百度时查看到的源码一样。
urllib2用一个Request对象来映射提出的HTTP请求。
在它最简单的使用行驶中,将使用你要请求的地址创建一个Request对象
通过调用urlopen并传入Request对象,将返回一个相关请求response对象
这个应答对象如同一个文件对象,所以可以在response中调用.read()
在HTTP请求时,允许你做额外的两件事:
1.发送data表单数据
并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序
一般的HTML表单,data需要数据编码成标准形式,然后做为data参数传到request对象。
编码工作使用urllib的函数而非urllib2
import urllib
omport urllib2
url='http://www.someserver.com/register.cgi'
values={'name' : 'WHY',
'location' : 'SDU',
'language' : 'Python'
}
data = urllib.urlencode(values) #编码工作使用urllib哦
req = urllib2.Request(url,data) #发送请求同时传data表单
response=urllib2.urlopen(req) #接受反馈内容
the_page = response.read() #读取反馈内容
如果没有传送data参数,urllib2使用GET方式请求
GET和POST请求的不同之处是POST请求通常有副作用,它会鱿鱼某种途径改变系统状态(例如提交成对垃圾到你的门口)
data同样可以通过在Get请求的URL本身上面编码来传送
import urllib2
import urllib
data={}
data['name']='WHY'
data['location']='SDU'
data['language']='Python'
url_values = urllib.urlencode(data)
print url_values # name=WHY&language=Python&location=SDU
name=Somebody + Here&language=Python&location=Northampton
url = 'http://www.example.com/example.cgi'
full_url = url + '?' + url_values
data = urllib2.open(full_url)
这样就实现了Data数据的Get传送
2.设置Headers到Http请求
有些站点不喜欢被程序访问(非人为),或者发送不同版本的内容到不同的浏览器。
默认的urllib2把自己作为“Python-urllib/x.y”(如:Python-urllib/2.7)
这个身份可能会让站点迷惑,或者干脆不工作。
浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。
下面发送跟上面一样的内容,但把自身默认成Internet Explorer
(不知道能不能用)
import urllib
import urllib2
url='http://www.someserver.com/cgi-bin/register.cgi'
user_agent='Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'
values={'name':'WHY'
'location':'SDU'
'language':'Python'
}
headers={'User-Agent':user_agent}
data=urllib.urlencode(values)
req=urllib2.Request(url,data,headers)
response=urllib2.urlopen(req)
the_page=response.read()