Python网页下载器urllib2

最新推荐文章于 2021-07-26 10:39:17 发布

原创最新推荐文章于 2021-07-26 10:39:17 发布 · 353 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Python网页下载器urllib2

python 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了使用Python进行网页抓取的三种方法：直接使用urllib2.urlopen获取网页内容、通过构造Request对象请求网页并设置头部信息、利用CookieJar管理Cookies进行网页抓取。通过这些方法，可以高效地实现网页信息的抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方式一

import urllib2
response = urllib2.urlopen('http://www.baidu.com')
print response.getcode()
cont = response.read()

方式二

import urllib2
request = urllib2.Request(url)
request.add_data('a','1')
request.add_header('User-Agent','Mozilla/5.0')
response=urllib2.urlopen(request)

方式三

import urllib2,cookielib
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response=urllib2.urlopen("http://www.baidu.com")
for html in response:
    print html

测试第一种和第三种是可以的，第二种add_data方法参数应该是三个，会报错。
感觉python的网页下载比java真的是好多了，java编写一共爬起网页的util，曾经干过这个活，代码量真的好多。