Python urllib urllib2事例

本文介绍了使用Python的urllib库来爬取网页内容,并将其保存到本地文本文件中。包括了基本的网页请求方法、读取内容及数据写入过程,以及如何使用urllib2库进行更复杂的网页请求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. #coding:utf-8
  2. #!/usr/bin/python
  3. # Filename: web.py

  4. import urllib,urllib2
  5. #网页地址
  6. url="http://news.163.com/13/0228/19/8OQUTIRP0001124J.html"
  7. #打开链接,返回一个可读的文件对象,可用文件的方法来读
  8. wp=urllib.urlopen(url)
  9. #获取页面内容
  10. content=wp.read()
  11. print "字符串长度:",len(content)
  12. #找开一个文本文件
  13. fp=open("163.txt","w")
  14. #写入数据
  15. fp.write(content)
  16. fp.close();

  17. #两种方法
  18. #fqq=urllib2.urlopen(url, data, timeout)
  19. #urllib2.urlopen(qqurl,data)
  20. qqurl="http://news.qq.com/a/20130228/001428.htm"
  21. req=urllib2.Request(qqurl)#request方法可以,可以在这里添加要提交的数据
  22. fqq=urllib2.urlopen(req)
  23. the_page=fqq.read()
  24. print "网页的字符串长度:",len(the_page)
  25. fp=open("qq.txt","w")
  26. fp.close

我们可以看到登陆人人的过程中浏览器向人人的服务器发送POST请求数据,有四项,其中两项是你的账号和密码。
下面我们就利用代码模拟发出同样的请求就可以啦。
post_data = {
    'email':'xxxxx',
    'password':'xxxxx',
    'origURL':'http://www.renren.com/Home.do',
    'domain':'renren.com'
}
req = urllib2.Request('http://www.renren.com/PLogin.do', urllib.urlencode(post_data))
html_src = openner.open(req).read()
parser = BeautifulSoup(html_src)


  1. 字符串长度: 134602
  2. 网页的字符串长度: 170233

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值