Python urllib urllib2事例

爬取并保存网页内容

最新推荐文章于 2024-10-16 08:00:11 发布

转载最新推荐文章于 2024-10-16 08:00:11 发布 · 110 阅读

Python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了使用Python的urllib库来爬取网页内容，并将其保存到本地文本文件中。包括了基本的网页请求方法、读取内容及数据写入过程，以及如何使用urllib2库进行更复杂的网页请求。

#coding:utf-8
#!/usr/bin/python
# Filename: web.py
import urllib,urllib2
#网页地址
url="http://news.163.com/13/0228/19/8OQUTIRP0001124J.html"
#打开链接，返回一个可读的文件对象,可用文件的方法来读
wp=urllib.urlopen(url)
#获取页面内容
content=wp.read()
print "字符串长度：",len(content)
#找开一个文本文件
fp=open("163.txt","w")
#写入数据
fp.write(content)
fp.close();
#两种方法
#fqq=urllib2.urlopen(url, data, timeout)
#urllib2.urlopen(qqurl,data)
qqurl="http://news.qq.com/a/20130228/001428.htm"
req=urllib2.Request(qqurl)#request方法可以，可以在这里添加要提交的数据
fqq=urllib2.urlopen(req)
the_page=fqq.read()
print "网页的字符串长度：",len(the_page)
fp=open("qq.txt","w")
fp.close

我们可以看到登陆人人的过程中浏览器向人人的服务器发送POST请求数据，有四项，其中两项是你的账号和密码。
下面我们就利用代码模拟发出同样的请求就可以啦。
post_data = {
'email':'xxxxx',
'password':'xxxxx',
'origURL':'http://www.renren.com/Home.do',
'domain':'renren.com'
}
req = urllib2.Request('http://www.renren.com/PLogin.do', urllib.urlencode(post_data))
html_src = openner.open(req).read()
parser = BeautifulSoup(html_src)