python 爬虫（1）

最新推荐文章于 2025-08-18 23:17:42 发布

power0405hf

最新推荐文章于 2025-08-18 23:17:42 发布

阅读量446

点赞数

分类专栏： python 文章标签： python 爬虫

python 专栏收录该内容

58 篇文章

订阅专栏

# -*- coding:utf-8 -*-

import urllib2

response = urllib2.urlopen('http://www.baidu.com')

baidu=response.read();

print baidu

上面这段代码输出的结果和访问百度时查看到的源码一样。

urllib2用一个Request对象来映射提出的HTTP请求。

在它最简单的使用行驶中，将使用你要请求的地址创建一个Request对象

通过调用urlopen并传入Request对象，将返回一个相关请求response对象

这个应答对象如同一个文件对象，所以可以在response中调用.read()

在HTTP请求时，允许你做额外的两件事：

1.发送data表单数据

并不是所有的POSTs都来源于表单，你能够使用POST提交任意的数据到你自己的程序

一般的HTML表单，data需要数据编码成标准形式，然后做为data参数传到request对象。

编码工作使用urllib的函数而非urllib2

import urllib

omport urllib2

url='http://www.someserver.com/register.cgi'

values={'name' : 'WHY',

'location' : 'SDU',

'language' : 'Python'

}

data = urllib.urlencode(values) #编码工作使用urllib哦

req = urllib2.Request(url,data) #发送请求同时传data表单

response=urllib2.urlopen(req) #接受反馈内容

the_page = response.read() #读取反馈内容

如果没有传送data参数，urllib2使用GET方式请求

GET和POST请求的不同之处是POST请求通常有副作用，它会鱿鱼某种途径改变系统状态（例如提交成对垃圾到你的门口）

data同样可以通过在Get请求的URL本身上面编码来传送

import urllib2

import urllib

data={}

data['name']='WHY'

data['location']='SDU'

data['language']='Python'

url_values = urllib.urlencode(data)

print url_values # name=WHY&language=Python&location=SDU

name=Somebody + Here&language=Python&location=Northampton

url = 'http://www.example.com/example.cgi'

full_url = url + '?' + url_values

data = urllib2.open(full_url)

这样就实现了Data数据的Get传送

2.设置Headers到Http请求

有些站点不喜欢被程序访问（非人为），或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/x.y”(如：Python-urllib/2.7)

这个身份可能会让站点迷惑，或者干脆不工作。

浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。

下面发送跟上面一样的内容，但把自身默认成Internet Explorer

（不知道能不能用）

import urllib

import urllib2

url='http://www.someserver.com/cgi-bin/register.cgi'

user_agent='Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'

values={'name':'WHY'

'location':'SDU'

'language':'Python'

}

headers={'User-Agent':user_agent}

data=urllib.urlencode(values)

req=urllib2.Request(url,data,headers)

response=urllib2.urlopen(req)

the_page=response.read()

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。