相信做过网站爬虫工作的同学都知道,python的urllib2用起来很方便,使用以下几行代码就可以轻松拿到某个网站的源码:
#coding=utf-8
import urllib
import urllib2
import re
url = "http://wetest.qq.com"
request = urllib2.Request(url)
page = urllib2.urlopen(url)
html = page.read()
print html
最后通过一定的正则匹配,解析返回的响应内容即可拿到你想要的东东。
但这样的方式在办公网和开发网下,处理部分外网站点时则会行不通。
比如:http://tieba.baidu.com/p/2460150866,执行时一直报10060的错误码,提示连接失败。
#coding=utf-8
import urllib