python 爬虫(1)

# -*- coding:utf-8 -*-

import urllib2

response = urllib2.urlopen('http://www.baidu.com')

baidu=response.read();

print baidu

上面这段代码输出的结果和访问百度时查看到的源码一样。

urllib2用一个Request对象来映射提出的HTTP请求。

在它最简单的使用行驶中,将使用你要请求的地址创建一个Request对象

通过调用urlopen并传入Request对象,将返回一个相关请求response对象

这个应答对象如同一个文件对象,所以可以在response中调用.read()

在HTTP请求时,允许你做额外的两件事:

1.发送data表单数据

并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序

一般的HTML表单,data需要数据编码成标准形式,然后做为data参数传到request对象。

编码工作使用urllib的函数而非urllib2

import urllib

omport urllib2

url='http://www.someserver.com/register.cgi'

values={'name' : 'WHY',

'location' : 'SDU',

'language' : 'Python' 

}

data = urllib.urlencode(values)  #编码工作使用urllib哦

req = urllib2.Request(url,data) #发送请求同时传data表单

response=urllib2.urlopen(req) #接受反馈内容

the_page = response.read()  #读取反馈内容

如果没有传送data参数,urllib2使用GET方式请求

GET和POST请求的不同之处是POST请求通常有副作用,它会鱿鱼某种途径改变系统状态(例如提交成对垃圾到你的门口)

data同样可以通过在Get请求的URL本身上面编码来传送


import urllib2

import urllib

data={}

data['name']='WHY'

data['location']='SDU'

data['language']='Python'


url_values = urllib.urlencode(data)

print url_values    #  name=WHY&language=Python&location=SDU


name=Somebody + Here&language=Python&location=Northampton

url = 'http://www.example.com/example.cgi'

full_url = url + '?' + url_values 

data = urllib2.open(full_url)


这样就实现了Data数据的Get传送


2.设置Headers到Http请求

有些站点不喜欢被程序访问(非人为),或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/x.y”(如:Python-urllib/2.7)

这个身份可能会让站点迷惑,或者干脆不工作。

浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。

下面发送跟上面一样的内容,但把自身默认成Internet Explorer

(不知道能不能用)

import urllib

import urllib2

url='http://www.someserver.com/cgi-bin/register.cgi'

user_agent='Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'

values={'name':'WHY'

'location':'SDU'

'language':'Python'

}

headers={'User-Agent':user_agent}

data=urllib.urlencode(values)

req=urllib2.Request(url,data,headers)

response=urllib2.urlopen(req)

the_page=response.read()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值